字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了
智东西
作者 程茜
编辑 云鹏

智东西9月24日报道,今天,字节的视频生成大模型首次亮相,分分钟化身超级导演,镜头切换、电影质感、多主体交互都能轻松拿捏;其通用模型Pro综合能力提升25%,初始TPM(每分钟处理Tokens数量)支持800k,高于业界其他模型。

这些都是今天字节跳动豆包大模型家族的重磅更新,连添了视频、音乐、同声传译三大新成员;还有文生图模型优化了六类复杂生成,语音合成模型可混合数百种音色……

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

还有各种或逼真、或科幻的视觉效果:

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

在企业应用场景中,不仅要考虑模型能力,还要考虑成本。谭待谈道,今年5月,火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱(0.001元)的公司。这样的大幅降价背后大量创新应用涌现,过去几个月内模型调用量增长突飞猛进。

他补充说,当Tokens的价格不再是阻碍应用创新的阻力,模型的性能又成为应用上量的关键。

豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k,高于业界其他模型,还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k,可一次性处理约40万汉字,这相当于一口气读完《三体》的第一部和第二部,同时,谭待还宣布,豆包Pro加量不加价。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

目前,开发者可以通过火山方舟使用豆包音乐模型API,用户也可以直接通过豆包App和海绵音乐App创作音乐。

4、同声传译模型:端到端模型架构,模拟真人发音

豆包同声传译模型采用端到端模型架构,再叠加豆包的语音克隆能力,去模拟真人发音。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

她举了两个例子,在输入虚拟人实现360度旋转的提示词后,AI生成了头部不动,身子旋转的视频,这更符合她需要的赛博朋克风格效果。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

语音合成模型打破了音色数量限制,可以混合数百种音色,供企业DIY不同情绪、性别、年龄、风格的声音效果。

在解决大模型落地困难方面,火山方舟2.0的基本理念是模型效果好、性价比高、流量大,围绕这一核心,算法工程师、信息安全、更强性能、安全可信是其四大支撑。

在更强的系统性能方面,豆包模型支持最大的初始并发,这得益于其有充沛的算力、推理层优化、系统调度能力的乘积,可以在50-120秒内完成数千卡GPU部署。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

上下文缓存方面,据吴迪透露,今年10月,他们将开放Context上下文缓存,企业可以减少多轮对话延迟,改善用户体验。同时,其会进一步降低企业使用成本。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

火山方舟还打造了全周期安全可信方案,通过身份认证、环境隔离、数据保密、信息无痕、操作可审计构建大模型安全“堡垒”。

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

为了扩展大模型应用的能力边界,火山引擎3+X插件升级,其中知识库插件可支持更大规模、更低延迟、更高召回率和准确率等。

结语:视频生成模型爆发机遇已来

近一年来,AI视频生成领域的热度持续攀升,多家AI公司推出了新的视频生成模型,引发了行业内的激烈竞争,从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世,彻底引爆了这条赛道。

坐拥抖音短视频丰富视频素材的字节跳动,此次重磅发布了视频生成模型,为视频生成赛道注入新的动力。从其已经发布的诸多Demo来看,在语义理解、视频生成的顺滑度方面可用性更强,并且字节跳动还将豆包模型技术应用到了已有的剪映、即梦AI等工具中,进一步加速视频生成的落地与规模化应用。