张一鸣姗姗来迟,却更迟了

进入9月,视频大模型成为了大厂的AI新赛点。而这一次,张一鸣再次姗姗来迟。

距离阿里通义千问文生视频上线5天,距离6月份快手发布可灵,时间已经过去3个月,9月24日,字节终于推出了自己的豆包·视频生成模型。

而值得关注的是,一向看重投资回报率(ROI)、偏实用主义的张一鸣,一开始就为豆包视频大模型定了“商业化”的调。

在活动现场,火山引擎总裁谭待表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐MV、微电影和短剧等。

张一鸣姗姗来迟,却更迟了

图注:输入“一个戴着圣诞帽的小女孩抱着布偶猫”生成效果

图源:字母榜

同时谭待也强调,在豆包视频大模型发布前,就已经在抖音不少短剧项目“露脸”。而上个月,昆仑万维发布 AI 短剧生成平台SkyReels,7月,美图秀秀发布AI 短片生成工具MOKI。

“现在已经有上百家短剧出海企业成为AI大模型用户。”某头部AI 工具服务商亦表示,对于大模型厂商如字节而言,用AI打下高昂的影视制作成本,AI加持下,短剧、MV将成为类似网文、短视频一样有更多用户参与的内容产品,在他看来,“晚来的字节,下的是商业化的棋。”

事实上,当Sora“平地一声雷”炸圈,能否推出视频大模型,成为了2024年衡量大模型厂商技术是否先进的“新标准”。

在这场齐追Sora的追逐战里,“不紧不慢”的字节,拖到9月底才在豆包大模型Pro升级的当口,为视频大模型“留了一个版面”。

当字母榜打开即梦AI,注意到应用豆包视频大模型后,C端用户能够在即梦AI内体验视频生成。

最长12秒“中规中矩”的生成时长,对齐可灵的生成效果,“不算惊艳,但迟了几个月,也没被先发的视频大模型甩出技术差距。”作为首批内测豆包视频大模型的AI从业者,张洋告诉字母榜,尽管国内视频大模型扎堆更新,但字节姗姗来迟的底气,或许正在于此前AI视频生成的效果,都并未能让用户“惊艳”。

而国产模型追Sora的同时,OpenAI却已经通过GPT-o1的推出,为基座大模型展示了强化学习的新路径,OpenAI或即将迎来估值超万亿的新时代,大模型厂商们,也将面临新的赛点。

A

剪映此前推出的即梦AI只支持3秒的视频时长;加载豆包大模型后,即梦AI内可以生成3-12秒的视频。

相比之下,可灵1.0版本,在未开通会员的情况下,只能体验5秒的视频生成,而字节的即梦AI通过每天登录发放66积分的形式,支持用户的免费试用。

不过,不像豆包大模型凭借低于行业98%的价格,开始卷起“大模型零元购”,引发热议,豆包大模型似乎不符合字节一贯“闷声干大事”的传统,显得有些粗糙。

输入“一个小女孩怀抱着布偶猫”的关键词,在豆包视频大模型发布前的内测版,第一次,AI似乎将布偶猫理解成了玩偶,生成的视频是怀抱着假猫,视频内的人脸也略显僵硬。

而等9月25日再次生成后,布偶猫又变成了田园猫,第三次生成时,才AI大模型才准确完成了指令。张洋告诉字母榜,作为首批内测的AI从业者,豆包视频大模型的使用效果并不算惊艳。

不过,豆包视频大模型可以切换3D动画、2D动画、国画、黑白、厚涂等不同风格,还可以选择随机运镜,或者自定义推近、拉远等运镜形式,相比起只提供16:9、9:16、1:1三种画面比例的可灵,豆包显然更加适配不同的画面比例,包括3:4、2:3、4:3、3:2等更多的比例选择。

在张洋看来,在用户的互动的体验上,豆包确实提供了更多的选择。不过,虽然豆包视频大模型可以实现一个prompt内的多镜头切换,但“整体画面的衔接仍有些不流畅,人物的表情有些失真。”

不过,张一鸣这次也毫不意外地将“实用主义”刻在了豆包视频大模型的基因里。

豆包视频大模型一经发布,便面向企业市场开启邀测,同时火山引擎总裁谭待更表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐MV、微电影和短剧等。

张一鸣姗姗来迟,却更迟了

不同于其他“拿着锤子找钉子”的AI创企,不论是字节还是快手,“本身有内容有平台,钉子在手,做视频大模型天然有着更多的应用场景。”张洋表示,

7月24日,可灵AI官方微信发文透露,目前申请权限的用户数已突破100万,并在同一天上线付费会员体系,包含黄金、铂金、钻石3个会员类别,年度会员价格从500多元到5000多元不等。对于姗姗来迟的字节而言,或许能在技术上与可灵不分上下,但在商业化路径上,已经开启C端付费的可灵,似乎再次快了一步。

B

5月,面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题,谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言,“当我们正处于AI的拐点上时,我看到的是机会,所以如果把这个时间线拉长,那么某一天发生的某一件事就都无关紧要了。”

如同被OpenAI时时抢跑的谷歌,晚来的字节,手握钉子,似乎打的还是后来居上的主意。

张一鸣姗姗来迟,却更迟了

根据QuestMobile数据显示,截止到7月份,AI APP月活用户规模已突破6630万。其中,豆包、文小言、Kimi、星野、通义位居top5,月活用户规模分别为3042万、1008万、625万、466万、424万。

尽管豆包APP的发布时间明显晚于阿里的通义千问、更晚于百度的文心一言、Kimi,但豆包的月活用户规模已经大于其他四家APP用户活跃数的总和。

因此,在AI视频生成领域,面对国内技术突破迟滞的现状,字节也似乎有着晚来的底气。

不管是先出圈的可灵,还是姗姗来迟的字节豆包视频大模型,7月、9月扎堆推出视频大模型的厂商们,似乎谁都没能追赶上Sora。

从快手的《山海奇镜之劈波斩浪》,到字节的《三星堆:未来启示录》,用AI做短剧成为了头部厂商AI视频生成效果的“炼金石”。

显然,相比起需要真实人物出现并互动的传统短剧,神话、科幻等类型的短剧,更适合现阶段的AI大模型。

“现在的AI生成水平不稳定,大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨,但也需要调试人员先生图,再进行1-2个小时的调整,”张洋告诉字母榜,现在的AI大模型生成的视频,更细节的人物表情和动作生成,仍然存在表情不自然,动作幅度小、表现形式机械的问题。

而AI短剧平台 Reel.AI 朱江也在采访中直言,“非动漫短剧预计要在今年下半年才能达到可消费水平。

李彦宏曾表示,“所谓领先12个月或落后18个月并不重要,每个公司都处在完全竞争的市场内,你不管做什么都有很多竞争对手。”

手握亿级用户规模的抖音APP,字节的从容不难解释。甚至如今还未发布视频大模型的腾讯,也手握着微信这一最大的社交APP,对于“手握钉子”的张一鸣和马化腾,他们似乎有着更多的选择。

C

“现在用哪家的视频大模型,都在抽卡。”

“生成10次里大概有1次能真的达到商用标准,但调试10次的过程,或许还不如人工更有效率。”试用过市面上的几家视频大模型后,影视从业者单杉直言,现在的大模型在生成效果上,没有达到用户的期望。

“输入生成一段布偶猫的视频,结果要不就是理解成玩具猫,要不就是田园猫,当用户2-3次试用无法得到稳定且超出预期的结果,就很难真正地完成用户留存”。在单杉眼里,这或许也能解释为何发布已超半年,Sora却迟迟没有公测。

年初便曾有报道称,OpenAI CEO奥特曼将投入7万亿美元与台积电合作建设晶圆厂,意在跳过英伟达自研芯片,而9月,OpenAI被爆出台积电正在为其“Sore视频模型”开发一款定制A16埃米级工艺芯片,目的在于提升其视频生成能力。

而这款A16的芯片,密度提升1.10倍,在相同工作电压下,速度提升了8%—10%;在相同速度下,功耗却降低了15%—20%。用“更低的价格和能耗,推进更快的AI视频生成”,显然是OpenAI押后Sora公测的重要原因。

张一鸣姗姗来迟,却更迟了

想要实现更好的AI视频生成效果,更大的算力成本的支出,更低的价格和能耗,这也成为了国内视频大模型最终能否“跑出来”的关键因素。

而近日,字节又被爆出计划与台积电就AI芯片开展合作,尽管字节随后回应称报道不实,并表示在芯片领域的探索更多集中于推荐和广告的业务优化。但在字节招聘网页输入“芯片”等关键词,包含AI芯片架构、芯片SIL测试工程师在内,已经有200多个相关岗位。

但对于张一鸣乃至国内的大模型头部厂商而言,摆在他们面前的挑战或许更为棘手。

9月19日,在2024云栖大会上,月之暗面创始人杨植麟表示,GPT-o1的推出的主要意义在于提升了 AI上限。“提升10%的生产力,还是说10倍GDP,这里面最重要的问题,就是能不能通过强化学习去进一步scaling。”

在GPT-o1时代,当如今的豆包、通义千问、文心、Kimi的即时聊天,从思考10秒、20秒生成答案,到能够调用各种工具,去执行分钟级别甚至天级别的任务,国内用户已熟知的AI即时聊天产品形态将迎来巨大的改变,“AI更像人,或者一位助理”,这似乎成为了月之暗面们下一次追赶OpenAI的新赛程。

当新的竞争时刻再次到来,国内大模型厂商的基座大模型彼时未见“新水花”,但对于张一鸣们而言,则又一次面临抉择。

是将大把的“人、钱、算力”继续投向文生视频这样的功能场景做迭代,还是学习OpenAI,引进强化迭代路线?对于不缺钱的字节来说,当然可以“两个都要”。

而当“强化学习”带来的想象空间足够大、足够诱人,新的发令枪打响,没能起早的字节,这一次能冲在前头吗?

(文中张洋、单杉为化名)