智东西
作者 程茜
编辑 云鹏
智东西9月24日报道,今天,字节的视频生成大模型首次亮相,分分钟化身超级导演,镜头切换、电影质感、多主体交互都能轻松拿捏;其通用模型Pro综合能力提升25%,初始TPM(每分钟处理Tokens数量)支持800k,高于业界其他模型。
这些都是今天字节跳动豆包大模型家族的重磅更新,连添了视频、音乐、同声传译三大新成员;还有文生图模型优化了六类复杂生成,语音合成模型可混合数百种音色……
还有各种或逼真、或科幻的视觉效果:
在企业应用场景中,不仅要考虑模型能力,还要考虑成本。谭待谈道,今年5月,火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱(0.001元)的公司。这样的大幅降价背后大量创新应用涌现,过去几个月内模型调用量增长突飞猛进。
他补充说,当Tokens的价格不再是阻碍应用创新的阻力,模型的性能又成为应用上量的关键。
豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k,高于业界其他模型,还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k,可一次性处理约40万汉字,这相当于一口气读完《三体》的第一部和第二部,同时,谭待还宣布,豆包Pro加量不加价。
目前,开发者可以通过火山方舟使用豆包音乐模型API,用户也可以直接通过豆包App和海绵音乐App创作音乐。
4、同声传译模型:端到端模型架构,模拟真人发音
豆包同声传译模型采用端到端模型架构,再叠加豆包的语音克隆能力,去模拟真人发音。
她举了两个例子,在输入虚拟人实现360度旋转的提示词后,AI生成了头部不动,身子旋转的视频,这更符合她需要的赛博朋克风格效果。
语音合成模型打破了音色数量限制,可以混合数百种音色,供企业DIY不同情绪、性别、年龄、风格的声音效果。
在解决大模型落地困难方面,火山方舟2.0的基本理念是模型效果好、性价比高、流量大,围绕这一核心,算法工程师、信息安全、更强性能、安全可信是其四大支撑。
在更强的系统性能方面,豆包模型支持最大的初始并发,这得益于其有充沛的算力、推理层优化、系统调度能力的乘积,可以在50-120秒内完成数千卡GPU部署。
上下文缓存方面,据吴迪透露,今年10月,他们将开放Context上下文缓存,企业可以减少多轮对话延迟,改善用户体验。同时,其会进一步降低企业使用成本。
火山方舟还打造了全周期安全可信方案,通过身份认证、环境隔离、数据保密、信息无痕、操作可审计构建大模型安全“堡垒”。
为了扩展大模型应用的能力边界,火山引擎3+X插件升级,其中知识库插件可支持更大规模、更低延迟、更高召回率和准确率等。
结语:视频生成模型爆发机遇已来
近一年来,AI视频生成领域的热度持续攀升,多家AI公司推出了新的视频生成模型,引发了行业内的激烈竞争,从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世,彻底引爆了这条赛道。
坐拥抖音短视频丰富视频素材的字节跳动,此次重磅发布了视频生成模型,为视频生成赛道注入新的动力。从其已经发布的诸多Demo来看,在语义理解、视频生成的顺滑度方面可用性更强,并且字节跳动还将豆包模型技术应用到了已有的剪映、即梦AI等工具中,进一步加速视频生成的落地与规模化应用。