阿里扔“王炸”！（微信文章未删减版）

主要观点总结

阿里巴巴正式开源旗下视频生成模型万相2.1，该模型在VBench基准测试中位居全球第一。万相2.1的技术突破主要体现在展现复杂稳定的人物肢体动作及精准还原物理场景，以及通过提示词在视频中生成文字的能力。开源行动带动中概股集体走强，意味着视频生成模型赛道的竞争将变得更加激烈。

关键观点总结

关键观点1: 万相2.1模型的成绩和开源行动

万相2.1在VBench基准测试中位居全球第一，力压国内外竞争对手。阿里巴巴决定开源该模型，这引起了股市的积极反应，带动了中概股的走强。

关键观点2: 万相2.1的技术突破

万相2.1的技术突破主要体现在能够展现复杂稳定的人物肢体动作，精准还原物理场景，以及通过提示词在视频中生成文字的能力。这些突破使万相2.1在视频生成领域具有显著优势。

关键观点3: 开源对行业的影响

行业领跑者的主动开源，意味着视频生成模型赛道将变得更加生机勃勃，竞争和迭代也会变得更加激烈。对于消费者和内容产业的从业者而言，这将带来生产力跃升的速度加快，成本和使用门槛将快速降低。

关键观点4: 与竞品的对比和挑战

随着万相2.1的开源，OpenAI、谷歌等竞品将面临商业化的挑战。目前OpenAI的Sora产品由于算力不足，尚未推出API计划，而谷歌Veo 2模型的定价相对较高。万相2.1的开源将给这些竞品带来压力，推动AI生成视频的定价策略发生变化。

正文

万相2.1在VBench基准测试中位居全球第一，力压OpenAI、Adobe、苹果等一众国内外竞争对手。

作者 | 史正丞

北京时间周二深夜，阿里巴巴正式开源旗下视频生成模型万相2.1模型。顶级前沿模型的开源浪潮，终于涌向由AI驱动的视频创作领域。

这也是本周AI产业“诸神混战”的最新一章。周一美国Anthropic公司意外发布首个混合推理模型Claude 3.7 Sonnet。与此同时，DeepSeek也在持续开源5个代码库，赶忙上架“最强大模型”的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三，将给语音助手Alexa带来“AI升级”。坊间也有传言称，OpenAI可能会在本周推出GPT-4.5。

根据通义介绍，此次开源的是两个版本的模型：14B版本适用于专业创作者迅速上手部署，而1.3B参数量的版本在家用显卡（注：官方给的例子是英伟达4090）上用单卡8.2G显存就能生成480P高质量视频。性能甚至能与某些5B参数量的闭源大模型相媲美。

受此消息影响，阿里巴巴美股盘中异动拉升，带动中概股集体走强。

根据视频生成模型的“大模型排行榜”，万相2.1在VBench基准测试中位居全球第一，力压美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果 STIV等一众国内外竞品。

（来源：huggingface）

而行业领跑者的主动开源，而且是全部推理代码和权重全部开源，意味着视频生成模型赛道将会更加生机勃勃，竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言，生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。

作为全球领先的视频生成模型，万相2.1的技术突破主要体现在两点，首先是能够展现复杂稳定的人物肢体动作，以及精准还原碰撞、反弹等复杂物理场景。这决定了AI生成的视频是否具有足够的真实性。

而且大模型也能驾驭各种风格和题材。

另一个巨大的优势，是万相2.1能够直接通过提示词，在视频中生成中文字（英文字也可以），以及特殊艺术效果。可以想见，随着这个模型的开源，中文AI应用市场又将迎来一波新玩法的升级。

在AI视频中准确生成文字，不论是中文还是英文，是绝大多数竞品目前未能达到的高度。

（来源：OpenAI Sora）

随着万相2.1完全开源，OpenAI、谷歌等竞品也将直面商业化的挑战：更好的模型已经开源了，AI生成视频的定价也将面临挑战。

拖了一整年后，OpenAI去年底终于发布Sora产品，面向每月缴纳20/200美元的订阅用户。同时由于算力不足，暂时没有推出API的计划。谷歌Veo 2模型则在近期披露定价，每生成1秒视频需要付费0.5美元，相当于生成一个小时的视频需要花费1800美元。