记者丨覃毅 编辑丨谭璐
科技巨头们,陆续亮出AI杀手锏。
12月初,腾讯混元大模型正式上线视频生成功能,参数量达130亿,只要输入一段提示词,即生成5秒多镜头视频。
随后,OpenAI宣布开启12天宣发活动,文生视频AI工具Sora有望上线。
AI视频能力迭代,多方混战的局面已经到来。
过去一年,借助入口、场景等优势,腾讯“混元”大模型以实用为目标,逐渐串联起模型、业务和数据链条,在应用方向展开攻势。
落地闯关
从应用效果来看,腾讯混元文生视频的画质细节让人眼前一亮。
用户只需在提示框输入一段描述,选择转场、多动作、超写实等提示,还可调整景别、光线及镜头运动等,提交即可生成一段视频。
比如,输入提示词:一位中国美女穿着汉服,头发飘扬,身后背景是伦敦大本钟,随着镜头自然切换到特写,美女宛然一笑。
又如,输入提示词:在纽约时代广场,一眼望去是闪烁的霓虹灯和匆忙的人群,镜头切换到安静的图书馆角落,有人专注地阅读。
“内部一直在进行视频生成能力的打磨,现在上线是水到渠成。”腾讯混元多模态生成技术负责人凯撒接受时采访说。
视频生成能力的商业想象空间,不可小觑。
“假设要研发一款医疗器械,传统方式是试验上几百种材料,倘若有了大模型虚拟模拟,成本将大幅度缩减。”一名互联网行业人士向《21CBR》分析道。
自2023年9月亮相以来,腾讯混元大模型即突出实用性标签。
混元的技术积累,来自腾讯丰富的应用场景,最先接入内部业务生态,主打“落地才是硬道理”。
过去半年,腾讯内部超过700个业务场景获得混元大模型底座支持。按照数据更新节奏,大概每个月接入超百个场景。
效益切实可见,今年三季度,AI大模型技术在腾讯企业服务板块的作用十分明显,尤其是广告业务。
腾讯将传统网络广告业务板块升级为“营销服务业务”,季度收入增长17%达300亿元,在广告支出疲软环境中尤为难得。
“腾讯始终以‘产业实用’,作为发展大模型的核心战略。”
腾讯高级执行副总裁、云与智慧产业事业群CEO汤道生强调,腾讯坚定ToB战略转型,把技术落地到产业场景,正是混元大模型的最佳练兵场。
汤道生
目前,腾讯云智能行业大模型已在金融、医疗、教育、汽车、能源等20多个行业落地。
过去三年,腾讯云收入过百万的合作伙伴数量增长了150%。近一年,AIGC相关产品伙伴收入增长550%,SaaS伙伴收入增长100%。
开放开源
大模型的核心命题在于,要成为落地于行业的生产工具。
腾讯混元的团队认识到,要打造大模型时代的原生工具链,不仅要保证全链安全稳定,还需达到“开箱即用”的效用。
针对大模型训练和推理场景,腾讯自研了Angel机器学习平台,在性能、成本、稳定性等各方面表现突出。
来源:图虫
腾讯又构建了大模型接入和应用开发的一站式平台,包含数据处理、精调、模型评估、一键部署以及提示词调优等服务,让大模型的“开箱即用”成为可能。
值得一提的是,今年腾讯选择开放平台能力与服务,积极拥抱模型开源。
比如,推出一站式AI智能体创作与分发平台——腾讯元器,企业和开发者可以基于此创建智能体、插件或者知识库;发布知识、图像创作、视频创作三大AI引擎工具,降低开发者应用门槛。
腾讯混元团队发现,开源相关能力,对齐了其“实用优先”的价值观。
最新发布的文生视频模型坚定开源路线,开发者及企业无需从头训练,即可直接用于推理,节约大量人力及算力。
腾讯混元团队成员解释,开源的好处是和更多开发者社区交流学习,生态更开放,更利于大模型场景落地。
可以预见,大模型技术日新月异,AI开发的新需求和场景将不断涌现。
坚持赋能客户的务实底色,腾讯充分支持企业和开发者通过API、专属模型、精调模型等方式,使用腾讯混元大模型相关能力,为产业合作伙伴的业务融合创新带来重要窗口。
探索前行
大模型技术的攀升曲线依旧陡峭,在不同场景验证后,腾讯混元团队选择推出原生AI大模型应用。
从小程序到Web,团队在今年5月推出App“腾讯元宝”,对于这一ToC产品的核心诉求,是用AI搞定生产力场景的用户痛点。
“它的产品取向,首先是向高学历职场人士提供工作和学习使用场景,娱乐属性相对低一些。”
腾讯云副总裁、腾讯混元大模型负责人刘煜宏说,元宝是依据用户需求长出来的,已与腾讯庞大的产品生态联动,达到混元支撑实际业务的目的。
比如,在AI搜索方面,腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎,覆盖微信公众号等腾讯生态内容及互联网权威信源,扩展了用户在专业复杂话题下的信息。
在日常生活场景,腾讯元宝也提供了丰富的应用及玩法,比如,免费开放AI头像生成、口语陪练、超能翻译官等多个特色应用。
它同时允许用户根据个人喜好,构建个人智能体。此前上线的“3D角色梦工厂”玩法,只需要一张照片便能迅速打造用户/商家的3D形象。
此次文生视频模型上线,元宝进一步落地了AI视频创作功能,支持生成中英文双语输入、多种视频尺寸以及多种清晰度的视频产品。
据小范围开放测试,混元视频生成模型画面具备高质感,可用于工业级商业场景,例如广告宣传、动画制作、创意视频生成等场景。
“一个东西将语音、文本、图像、视频都能搞定,全模态进,全模态出,需要一些时间和资源。”刘煜宏曾表示,腾讯做大模型不争一时之先。
放眼大模型市场,技术成熟度和场景丰富度远未达到大规模商业化阶段,腾讯混元正在探索一切可能。
图片来源:腾讯,除标注外