首页   

千呼万唤始出来,国风爱好者等到了通义万相的视频生成大模型

第一财经  · 财经  · 2 周前

9月19日云栖大会上,阿里发布通义万相视频生成大模型。和诸多同行的限次试用和催你付费相比,阿里颇有诚意——只需登录通义万相官网及通义APP,即可免费体验生成影视级高清视频,APP端更是开放每日不限次使用,为一众影视创作、动画设计、广告设计等领域工作者再添生产“利器”。

PC制作网页

手机端入口:
后发先至,引领国风传承
自OpenAI推出Sora以来,不少科技公司都纷纷推出类似产品,但国人要想轻松愉快地上手使用还需要跨过颇高的学习门槛,甚至在ChatGPT上都有人专门开发智能体定向完善Stable Diffusion的文生视频大模型的提示词,只为了尽快生成想要的视频效果。
针对这样的用户痛点,“后发”的通义万相除了主打免费的诚意“先至”,推出三招直击人心:原生支持中文长文本提示词,具备复杂语义理解和概念组合生成能力,将文字创意精准呈现,对画面内容、空间构图、运动过程、运镜方式等指令均有良好支持,让视频制作更合本心;配合提示词“灵感扩写”功能,哪怕只有关键词,但还没想好具体如何描述元素关系和场景也能一句话生成视频,通过风格提示词生成相应的视频画面,减少操心;还能够将图片作为视频首帧延续生成一段视频,实现生成更可控,画面更精准,让人看了更动心。
笔者以“一个亚洲女孩坐在龙背上从右至左飞过,带有春节的美好祝愿”为例进行了“灵感扩写”,通义万相立刻描绘了更为具体的场景“一个亚洲女孩儿身着传统服饰,兴奋地坐在一条栩栩如生的龙背上,从画面右侧向左侧飞行,龙身蜿蜒了三层,女孩儿的长发随风飘扬,脸上洋溢着幸福的笑容,仿佛在传达着春节的美好祝愿,整个场景充满了欢乐和祥和的气氛”,5分钟的等待生成了5秒的视频,女孩的笑容富有感染力,色彩以红、黄、绿为主色调,背景的点点雪花和大红灯笼渲染出冬日春节的氛围。
对于国内的创作者来说,体现国风内容的表达并不容易。“如果你想的是东方龙,就一定要在提示词里清楚表示,不然就是西方龙的画面。”一位AI视频制作者说,为了生成想要的图像和视频需要耗费大量的时间,并且很难保持风格的一致。即便是同一表述如“龙”,东西方语境下就是截然不同的文化符号,训练时采用的数据集和应用时的提示词都会影响生成的效果。以前在海外的大模型里,中国风还很容易显现其他亚洲文化的影子。而在通义万相的视频里,龙透露着喜庆,女孩明眸善睐,发丝随风拂动,绝对符合国人心目中对国风的期待。
模拟世界,未来任重道远
人们对大模型的期许是要听话,但不能太听话,还要有良好的“想象力”,这就涉及到复杂语义理解和概念组合生成,既要能准确呈现提示词中描述的复杂元素,还要在涉及到多个不同元素时,能准确、有机地结合在一起,核心就是再保证指令遵循能力之后再去发挥大模型的涌现能力。不要小瞧这个顺序,这可关系到大模型是有“think outside of the box”(不落窠臼)的创意巧思还是在“一本正经地胡说八道”。
用户期望模型能生成多样化的图像风格同时保持一致性,这对算法提出了更高的要求。有视频创作者表示,今年年初最常使用的工具还是Pika,现在则主要用Runway Gen-3与Dream Machine。在他眼中,Runway Gen-2、Pika可以认为是上一代模型,从Runway Gen-3开始已逐渐走向新一代视频生成模型,新模型的动态效果明显更佳,通义万相出现在了市场对用户教育基本完成的阶段,需要比拼的是特色和好用。
不过,视频模型的发展仍面临一些共性问题,需要赛道上的选手们努力解决。
首先是生成的时长仍受限制。从时长来看,Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的视频时长分别为3秒、4秒、5秒、3秒和16秒,通义万相的视频在5秒左右,还不具备时长上的碾压性优势。
其次是对真实物理世界的模拟能力有待提升。为测试物理规律合理性,笔者将提示词设置为“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”(一个装满红酒的杯子从桌上掉下来,砸碎了杯子,红酒洒了出来),此前Pika显示了桌上的碎片,但杯子看上去没有碎,Runway Gen2和Dream Machine的杯子则没有摔下或碎掉。而通义万相显示的是红酒倾倒而下,成为了砸碎杯子的外力,杯子在红酒中化为齑粉。

从综合表现来看,通义万相推出视频生成功能的速度不是最快的,但以“听懂中国话、最懂中国风”做到了差异化,凭借全新发布自研AI视频生成大模型具备强大的画面视觉动态生成能力,擅长概念理解与组合生成,能够轻松驾驭多种艺术风格,优化中式元素表现,带来影视级画面质感,同时支持多语言与可变分辨率生成。
生成视频追求的是完美的视听体验。此前Pika上线唇形同步功能Lip Sync,只要上传文本或音频,就能让视频人物发声且嘴型完全同步,由AI语音克隆创企ElevenLabs提供技术支持。通义万相还能生成与视觉内容高度匹配的声音特效,实现音画一致,增强视听一体的沉浸感。谁能成为创意工作者最常打开的软件,谁才能成为“笑到最后”的优胜者,留给通义万相的机会和挑战一样多。

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com