
刚刚,腾讯混元大模子公布最新进展:崇敬上线视频生成才略,这是继文生文、文生图、3D生成之后的又一新里程碑。与此同期,腾讯开源该视频生成大模子,参数目130亿,是现时最大的视频开源模子。
“用户只需要输入一段刻画,即可生成视频,”腾讯混元考虑负责东谈主领略,现在的生成视频维捏中英文双语输入、多种视频尺寸以及多种视频明晰度。现在该模子已上线腾讯元宝APP,用户可在AI行使中的“AI视频”板块请求试用。企业客户通过提供做事接入,现在API同步绽开内测请求。

通过腾讯元宝APP-AI行使-AI视频即可使用该功能(前期需请求)
在与国表里多个顶尖模子的评测对比夸耀,混元视频生成模子在文本视频一致性、领导质地和画面质地多个维度恶果起始,在东谈主物、东谈主造步地等场景下发扬尤为出色。

腾讯混元视频生成大模子制作出的视频画质很传神,骨子也与提醒词高度一致,确保画面的领路性,减少形变,以致在提醒词是 emoji 色调的情况下,也不错平安输出。
举例,在处置冲浪、跳舞等包含大幅度看成的场景时,该模子大约生成领路且合理的看成镜头,物体形变表象得到有用狂妄;在处置光影反射时,它大约基本革职物理端正,如在镜面或照镜子的场景中,大约兑现镜表里看成的一致性。此外,该模子还能在保捏画面主角不变的情况下自动切换镜头,这是很多其他模子所不具备的高等功能。

视频由腾讯混元视频生成,提醒词:200mm长焦镜头,瞄准一只停在雕栏上的海鸥。羽毛的纹理明晰可辨,远景的木雕栏平和虚化。迢遥的落日和海平面溶化成金红色的光影

视频由腾讯混元视频生成,提醒词:摇风雪中,一列蒸汽火车在坎坷山间穿行,黑烟从车头直冲云端,车厢在皎皎白雪中留住深重轨迹,镜头以侧面跟踪,捕捉机械巨兽破开风雪的磅礴声势,白雾与蒸汽交汇成壮丽画卷,电影氛围,远景

视频由腾讯混元视频生成,提醒词:一个荫藏的瀑布流入清晰的水池,周围是魁岸的树木和绿色植物。阳光穿过树叶,不才面的岩石和水面上酿成雀斑。传神,粘稠丛林中的宁静瀑布,宁静、阳光明媚的日子,中景

视频由腾讯混元视频生成,提醒词:一位戴着复旧翱游护目镜的机械师,半跪在蒸汽一又克格调的职责室里。她棕色鬈发挽成发髻,稀薄的银色发丝闪着金属后光。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起透露布满齿轮纹身的手臂。特写她正用黄铜器具调试一只机械鸟,齿轮间冒出缕缕蒸汽,职责台上洒落着铜管、发条和旧式图纸。
它剿袭了与Sora一样的DiT架构,并在此基础上进行了多项优化。混元的视频生成模子通过引入新一代的文本编码器,权贵增强了对语义的领路和革职才略,这使得它在处置多主体场景时大约愈加精准地推行指示并呈现细节;此外,该模子还剿袭了合股的全留心力机制,这不仅让视频帧之间的过渡愈加当然,还兑现了在保捏主体一致性的前提下进行多视角切换;终末,混元通过剿袭先进的图像视频羼杂VAE技巧(3D变分编码器),在细节捕捉上获得了权贵稀奇,相等是在处置小尺寸东谈主脸和快速领导镜头等复杂场景时发扬尤为杰出。
现在,腾讯文书开源该视频生成大模子已在 Hugging Face 平台及 Github 上发布,包含模子权重、推理代码、模子算法等好意思满模子,可供企业与个东谈主诞生者免费使用和诞生生态插件。基于腾讯混元的开源模子,诞生者及企业无需重新磨真金不怕火,即可径直用于推理,并可基于腾讯混元系列打造专属行使及做事,大约从简大批东谈主力及算力,加速行业改造顺次。
据雷峰网了解,从年头以来,腾讯混元系列模子的开源速率赓续加速。此前,腾讯混元还是开源了旗下文生文、文生图和3D生成大模子。至此,腾讯混元系列大模子已兑现全面开源。