字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

⋅ 2024-09-24 19:00:46 ⋅ 阅读 ⋅ 探索

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了
智东西
作者程茜
编辑云鹏

智东西9月24日报道，今天，字节的视频生成大模型首次亮相，分分钟化身超级导演，镜头切换、电影质感、多主体交互都能轻松拿捏；其通用模型Pro综合能力提升25%，初始TPM（每分钟处理Tokens数量）支持800k，高于业界其他模型。

这些都是今天字节跳动豆包大模型家族的重磅更新，连添了视频、音乐、同声传译三大新成员；还有文生图模型优化了六类复杂生成，语音合成模型可混合数百种音色……

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

还有各种或逼真、或科幻的视觉效果：

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

在企业应用场景中，不仅要考虑模型能力，还要考虑成本。谭待谈道，今年5月，火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱（0.001元）的公司。这样的大幅降价背后大量创新应用涌现，过去几个月内模型调用量增长突飞猛进。

他补充说，当Tokens的价格不再是阻碍应用创新的阻力，模型的性能又成为应用上量的关键。

豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k，高于业界其他模型，还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k，可一次性处理约40万汉字，这相当于一口气读完《三体》的第一部和第二部，同时，谭待还宣布，豆包Pro加量不加价。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

目前，开发者可以通过火山方舟使用豆包音乐模型API，用户也可以直接通过豆包App和海绵音乐App创作音乐。

4、同声传译模型：端到端模型架构，模拟真人发音

豆包同声传译模型采用端到端模型架构，再叠加豆包的语音克隆能力，去模拟真人发音。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

她举了两个例子，在输入虚拟人实现360度旋转的提示词后，AI生成了头部不动，身子旋转的视频，这更符合她需要的赛博朋克风格效果。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

语音合成模型打破了音色数量限制，可以混合数百种音色，供企业DIY不同情绪、性别、年龄、风格的声音效果。

在解决大模型落地困难方面，火山方舟2.0的基本理念是模型效果好、性价比高、流量大，围绕这一核心，算法工程师、信息安全、更强性能、安全可信是其四大支撑。

在更强的系统性能方面，豆包模型支持最大的初始并发，这得益于其有充沛的算力、推理层优化、系统调度能力的乘积，可以在50-120秒内完成数千卡GPU部署。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

上下文缓存方面，据吴迪透露，今年10月，他们将开放Context上下文缓存，企业可以减少多轮对话延迟，改善用户体验。同时，其会进一步降低企业使用成本。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

火山方舟还打造了全周期安全可信方案，通过身份认证、环境隔离、数据保密、信息无痕、操作可审计构建大模型安全“堡垒”。

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

为了扩展大模型应用的能力边界，火山引擎3+X插件升级，其中知识库插件可支持更大规模、更低延迟、更高召回率和准确率等。

结语：视频生成模型爆发机遇已来

近一年来，AI视频生成领域的热度持续攀升，多家AI公司推出了新的视频生成模型，引发了行业内的激烈竞争，从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世，彻底引爆了这条赛道。

坐拥抖音短视频丰富视频素材的字节跳动，此次重磅发布了视频生成模型，为视频生成赛道注入新的动力。从其已经发布的诸多Demo来看，在语义理解、视频生成的顺滑度方面可用性更强，并且字节跳动还将豆包模型技术应用到了已有的剪映、即梦AI等工具中，进一步加速视频生成的落地与规模化应用。

- THE END -

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-09-24 19:00:46

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/tansuo/2444.html

名创优品出资 62.39 亿元，成永辉超市最大股东

字节跳动放弃音乐流媒体野心：TikTok Music将于11月28日关闭

评论（共条评论，人围观）

微信二维码

微信二维码

支付宝二维码