5月18日,据英国《金融时报》报道,中国AI公司在视频生成领域已经领先美国竞争对手。作为生成式AI的一个关键战场,视频生成技术在广告、电商和娱乐领域正快速普及。目前,字节跳动、快手等公司正利用海量短视频库训练系统,这使它们在与美国同行的竞争中占据优势。

AI视频生成工具得到广泛应用
这一变化标志着AI竞赛出现分化:尽管OpenAI、Google和Anthropic在大语言模型以及编程等领域仍占主导地位,但根据开发者反馈和多项评测排行榜,它们的视频生成工具在质量和易用性方面已经落后于中国公司的产品。
中国公司的优势
“我们尝试过的大多数美国模型,在视频生成方面都不是很好。”AI创业公司Director AI创始人本·蒋(Ben Chiang)表示。该公司制作AI生成内容,例如动画和短剧。他认为,更复杂冗长的内容审查限制了美国工具的发展,而且生成效果通常不够逼真。
Director AI主要使用快手开发的“可灵”视频生成工具,同时也会根据具体任务和成本需求,在字节跳动的Seedance 2.0以及创业公司MiniMax的“海螺”工具之间切换使用。
“归根结底还是要看生成质量以及模型对提示词的理解和执行能力。”本·蒋表示。他补充说,近期的技术进步使这些工具使用起来更加流畅,尤其是在音画同步和语音稳定性方面改善明显。
对于创作者而言,这些改进已经在重塑他们的制作流程。格鲁吉亚第比利斯的独立AI电影制作人兼剪辑师乔治·元(George Won)表示:“Seedance 2.0极大释放了我的创作自由。”
“它能够处理激进的镜头角度和快速运动,同时不会丢失角色的面部特征或破坏光线对比。大多数AI模型在快速运动时会出现画面抖动或主体偏移的问题。”他表示。
评分高
可灵、Seedance 2.0和阿里巴巴HappyHorse 1.0在Arena平台的最佳视频模型排行榜上均获得了高分。该排行榜是基于独立平台用户的投票数据编制而成的。相较于大多数模型基准测试系统,这类评估被认为更加可靠,因为各大AI实验室往往会针对基准测试进行优化,导致其结果未必能准确反映模型在真实场景中的表现。
Google的Veo 3模型也颇具竞争力。专家表示,该模型的优势在于能够获取YouTube平台上的视频素材,但同时对开发者设置了更多内容安全保护和使用限制。

中国视频生成工具评分领先
这种进步的背后,是对庞大专有视频数据的掌控。字节跳动和快手运营着位居全球前列的短视频平台,这为它们提供了竞争对手难以复制的训练优势,尤其是视频内容不像文本那样,能够轻易进行大规模抓取。
上周,快手宣布正在探索分拆可灵业务的可能性,并可能寻求独立上市,以抓住AI视频业务快速增长带来的机会。
这类素材的使用也引发了外界审视。字节跳动此前因涉嫌版权侵权面临法律威胁,它被指控允许用户在未经适当授权的情况下,使用包括漫威电影和《南方公园》电视剧中的角色来生成视频。字节跳动已承诺加强版权保护措施。
多位开发者和内容创作者表示,较为宽松的内容限制,使中国模型在实际使用中更方便。本·蒋称,美国工具“会不断报错”,但并不会进一步解释具体原因。
性价比高
对于个人创作者来说,中国平台通常比西方替代产品更便宜、也更灵活。它们提供订阅制或按量付费模式,使用户能够快速进行各种创意实验。不过,自今年2月以来,由于Seedance 2.0需求过于旺盛,一些用户已经遭遇使用受限和长时间等待的问题。
针对企业客户,字节跳动采取了不同的策略。据知情人士透露,对于部分美国客户,字节跳动要求缴纳大额预付款,客户需要支付约200万美元以获得模型访问权限和额度分配。字节跳动未回应置评请求。
一些用户则通过BeHooked等第三方平台绕过这些门槛。这类平台会重新包装这些模型,并提供不同的定价方案。
生成视频所需的token远远多于文本或音频,因此大规模部署成本极高。今年3月,OpenAI部分由于算力成本过高,停止了其Sora视频生成模型的服务。
对于那些基于这项技术开展业务的公司而言,近期生成质量的飞跃正在带来商业机会。
“以前,生成的视频既尴尬又生硬,达不到品牌方的标准。现在我们已经到了一个阶段:你很难分辨出这究竟是AI生成的还是真人拍摄的。”为电商网站提供视频基础设施的Fireworks公司CEO维森特·杨(Vincent Yang)表示。
他表示,这项技术已经在重塑广告行业,使品牌能够以前所未有的规模生成视频内容。
“有一家零售商曾要求我们为它的商品页面制作10万个视频,”他说,“如果没有AI,这样的成本会高得难以承受。而现在,每件商品都可以拥有自己的视频,甚至还能针对不同客户生成多个定制版本。”

