作者丨刘杨楠
编辑丨海腰
图源丨文心一格
“大模型是一种能力升级,而不是新场景。”
这是北京聚力维度科技有限公司(以下简称“聚力维度”)创始人&CEO赵天奇对大模型浪潮的底层判断。
在他看来,今天的大模型浪潮不一定要追求开天辟地的杀手级应用。
“大模型是能力升级,应用场景是现成的。用新技术实现传统场景的创新容易,但是应用场景创新很难,用AI把原来的应用变得更强也是一件好事。”他表示。
聚力维度成立于2016年,前身为北京十二维度科技公司。目前,聚力维度已成长为涵盖科技公司、传媒公司及香港分公司等多元化板块,业务覆盖全国。
赵天奇是一位带有浓厚科学家气息的创业者,博士就读于北京邮电大学,师从徐大雄院士;博士后就读于清华大学,师从戴琼海院士。创业10余年,他带领团队多次填补3D领域的技术空白。
聚力维度创始人&CEO赵天奇,图片来源:聚力维度
2016年,赵天奇带团队用AI 100%实现全自动化的2D转3D内容;2021年,聚力维度用一个摄像头实现全身骨骼和面部表情的高精度捕捉,并实时驱动3D数字人跳舞;2024年,聚力维度联合华为云发布国产多模态3D视频大模型——赛娲大模型,模型支持文字、声音、视频等多模态输入,生成3D AI演员,并实现真人级别AI表演。
赵天奇是一位技术主义者。“我认为世界上很多问题都能用科技解决,可能有人认为文化创作好像不行,但我还是想尽可能用技术解决人类可能遇到的各种问题。”赵天奇说。
影视制作,正是赵天奇多年来死磕的“技术死角”。
敲开影视制作的大门
小时候,赵天奇也曾梦想长大后成为科学家,用科学改变世界。
很长一段时间里,赵天奇受还原论思想的影响,认为科学研究要无限向下,物质组成的下一层决定了上一层的运动规律,而物理是关于一切物质的道理,是解决一切问题的关键。
高考后,赵天奇如愿报考物理专业。但赵天奇很快发现,脱离现实世界的理论研究也很难改变世界。“当你研究大脑的时候,最多研究到神经元就够了,再往下研究构成神经元的原子分子是没有意义的。”赵天奇说。
在此后的学术生涯中,赵天奇逐渐从理论物理研究转向了和现实世界连接更紧密的人工智能。
2011年,赵天奇到北京邮电大学读博,研究3D显示与内容技术,师从信息光学界专家徐大雄院士。就在赵天奇读博的第二年,谷歌将16000台电脑连在一起,在上千万张Youtube照片中认出了一只猫,名为“深度学习”的AI技术浪潮开始走进大众视野。于是,赵天奇从一直很感兴趣的影视制作出发,开始研究如何用AI实现3D内容制作。
当时,大量3D内容由2D内容转换而来,整个过程需要耗费大量人力,赵天奇便用计算机视觉技术研发了自动补背景功能,将2D转3D的制作成本降低约30%。
2012年,赵天奇成立十二维度,希望用AI在影视制作领域100%实现全自动的2D转3D,让技术真正和产业需求接轨。整个公司里,他是公司唯一的技术人员,其他人负责寻找落地方向。
巧合的是,《阿凡达》上映后,3D电影市场迅速打开。一次机缘巧合下,赵天奇在一次行业展会上接触到了《郑和1405:魔海寻踪》制作方。
《郑和1405:魔海寻踪》制作过程中发生了小插曲,急需有人来救火,便找到了此前在活动上认识的十二维度。当时,赵天奇连夜坐着卧铺赶到电影片方,路上还在修改第二天要展示的算法。第二天,赵天奇给制作方现场制作了几个镜头,成功赢得竞标,收获了一笔200万的合作。
这是十二维度接到的第一笔大单,也是十二维度进军影视后期制作的敲门砖。此后,赵天奇扩充了团队,陆续参与了《新警察故事》《寻龙诀》《饥饿游戏》等院线电影的2D转3D环节。
但赵天奇并未满足于此。“我还是希望用AI 100%实现全自动的2D转3D技术,这是我从技术切入这件事的最初目的。”赵天奇说。
2016年,十二维度终于完成了AI全自动完成2D转3D的阶段性目标。
“好像什么都可以做,但你到底要做什么?”
就在赵天奇思考公司下一步该往哪走的时候,大洋彼岸又送来一份参考答案。
2016年,谷歌DeepMind基于深度学习算法开发的围棋机器人AlphaGo战胜围棋天才李世石,AI这个有些晦涩的技术概念第一次闯入大众视野,商业世界也迅速拥挤起来。
彼时,国内各界对人工智能的热情同样被点燃:“成为中国DeepMind”的故事在资本圈屡试不爽;AI四小龙迅速成长为商业新星;工业检测、安防等“AI+”创业方向成为宇宙中心,甚至原先不在AI圈的人也想从中分一杯羹。
乱花渐欲迷人眼。见此盛况,赵天奇脑海中始终盘绕着一个问题:“好像什么都可以做,但到底要做什么?”
最终,赵天奇还是决定继续探索AI与影视的结合。“如果没有AI,影视制作是一个小行业和非技术行业;但有了AI,影视就是一个大行业,更是一个技术行业。”赵天奇表示。
当时,苏宁收购聚力传媒,并向赵天奇抛出橄榄枝,双方共同成立聚力维度,希望彻底实现全流程的人工智能影视制作,让每个创作者都能制作自己的作品。十二维度成为聚力维度全资子公司。
2016年也是赵天奇到清华大学攻读博士后,做AI影视研究的第二年,他的导师是中国工程院院士戴琼海。赵天奇还记得,第一次见面时,戴院士就告诉他:“北邮和清华都是工科院校,工科院校就是要做落地。”
“我看论文第一眼会看它有没有用,很多人都是为了发论文而发论文,可能有些文章很有用,但作者都不知道。”赵天奇说。
聚力维度成立的头五年,赵天奇带领团队进行了一项“前无古人”的技术攻坚。
当时,从“人人都能做影视”的终极愿景出发, 赵天奇和团队几乎用了一整年的时间选定技术方向。在多次推翻和重建中,赵天奇的思路逐渐清晰。
回归影视制作的第一性原理,要实现全流程AI影视制作,首先就要排除实拍,在数字世界里解决影视制作问题。
2017年,赵天奇几乎用一整年时间调研了全国各地的动画公司。他发现,动画片的制作成本中,80%来自K动画(Keyframe,设置关键帧),20%来自建模,由此确定了数字人的大方向。
数字人有2D、3D之分,考虑到影视作品的本质是拍世界,不能只是简单拼接画面镜头,世界是三维的,因此从第一天起就要走3D路线。
赛博演猿登陆联想应用商城
3D数字人制作也有“生成”与“捕捉”两条路线之分。2016年的AI还不能直接生成3D内容,GAN能够生成2D图像,但生成效果“一眼假”,根本无法支持影视级制作,由此最终确定了“3D捕捉数字人”路线。
但当时主流的3D捕捉技术大多依赖于大量体感设备,真人佩戴做出动作,再录入数据。整套流程下来,光是硬件设备的采购成本至少就要百万级,很多个人创作者显然没有这些资源储备。
因此,要想真正实现“人人都能做影视”,最理想的情况是,直接用一个普通摄像头完成面部表情、手势、肢体动作的捕捉与驱动。“此前很少有人想到这一点,因为这需要从真实的影视制作流程出发,倒推出这个技术方向。”赵天奇说。
最终,赵天奇决定走这条从没人走过的路。
没人走过意味着所有的坑都要亲自踩,从数据到表征,到整个算法框架都要从零开始,只能从头自己做。赵天奇在公司建立了一个名为“科幻成真”的实验室,负责全部研发工作。
道路是曲折的,但结局是光明的。2021年,聚力维度终于实现用单目摄像头完成高级别数字人的表情、手势、动作捕捉。赵天奇表示,要做成这件事,不仅需要技术创新,更需要对影视制作的深刻理解。此前参与院线电影制作的经历,无形中也成为了聚力维度成功的踏脚石。
赵天奇透露,这五年间,也曾有投资人或潜在客户抛出橄榄枝,表示愿意投入足够的资金,让聚力维度做一些更快看到回报的事情。
“当时我比现在还“轴”,几乎天天都在拒绝。”赵天奇坦言,“我认为‘AI+’一切都有机会,但我只想找一个我认为市场大且我感兴趣的方向来做。”
做工具,不做玩具
ChatGPT发布后,赵天奇意识到,或许可以重拾之前被放弃的3D生成路线了。
赵天奇带着团队第一时间测试了ChatGPT的能力,明显感到GPT-3.5的效果已经远超GPT-2。2023年年中,聚力维度便开始探索3D视频生成模型。
直到今年2月,Sora一经发布便成为行业标杆,点燃了全球创业者对多模态模型的兴趣,也让60s的长视频生成成为各家企业的竞争方向。
不过,在和影视行业内部交流过后,赵天奇发现,对于影视制作本身来说,卷时长和卷参数都没有意义,真正的痛点在于能否有一个模型,实现多个镜头间的稳定可控。
“实际的影视制作中长镜头非常少,一个镜头可能几秒钟就够了,大家更需要两个镜头之间的稳定可控。”赵天奇说。例如两个人物角色正在对话,镜头随着对话在两人之间切换,如果镜头切换后两个镜头中的世界变得前后不一致,观众就会“出戏”,无法形成一个逻辑完整的影视作品。
这种符合世界运行规律的、稳定可控的内容生成,恰恰是Sora所代表的2D路线最大的难点。“从技术角度来说,2D生成模型和3D生成模型是两条完全不同的技术路线。2D生成的难点在于单个及多个画面间的稳定可控,而3D生成路线的难点在于3D数据的获取。”赵天奇表示。
而聚力维度此前攻克2D转3D以及单目摄像头3D捕捉技术让他们积累了大量3D数据,这便迈出了3D生成模型最艰难的第一步。
2024年5月,聚力维度联合华为云发布国产多模态3D视频大模型——赛娲大模型。该模型支持文字、声音、视频等多模态输入,可以生成3D AI演员实现真人级别的AI表演;支持任意时长;同时生成视频中的3D对象在不同镜头与运动中完全一致,可精细化编辑,能准确可控地讲出影视故事,真正实现全流程AI影视制作,可用于商业级的影视、短剧、广电节目制作等。
“我们的思路是先造人、造世界,再让这个世界的人进行表演,那他的表演逻辑自然是有一致性的,没有能力发生变化了。”赵天奇说。
有了技术,接下来的问题是,如何切入产业?
目前市面上的AI产品大致有两类落地思路:一类是从“玩具”到“工具”,将产品开放给C端客户,搜集到足够多的用户需求和数据后,从中筛选出更聚焦的产业机会,进一步落地产品;一类则是直接瞄准工业级机会,打造“工具”型产品,提供全新的生产力。
央视网虚拟主播小C对话《中国奇谭》
赵天奇选择了后者,让AI成为影视制作行业真正的生产力工具。
影视行业覆盖极广,院线电影、电视剧、综艺节目、广告科教、网剧、网络大电影、短剧等均可涵盖在内,具体选择什么方向切入呢?
聚力维度选择了近两年势头最猛的短剧。
“短剧是对成本最敏感,上下游分工最清晰,且上升势头最快的场景。”赵天奇说。公开数据显示,2023年中国微短剧市场规模约374亿元,同比上升约268%,预计今年将超过500亿元,到2027年市场规模有望达到1000亿元。
据赵天奇透露,聚力维度未来将和高校合作,对编导传媒方向的学生展开联合培训。“目前的AI还无法代替导演,AI工具的核心价值是更高效地实现创作者的创意。而学生群体数量大、创作需求旺盛,更容易接受新事物,从就业角度来看,掌握AI技能也为他们提供了更多就业可能。”
不过,在赵天奇看来,今天的市场上,还没有真正的“AI短剧”,“AI短剧”也尚未形成一个真正的产业。未来,他希望能够实现工业级真AI影视制作。“工业级”要求最终作品不穿帮,让观众看不出内容是AI生成的,且愿意为之付费;而“真AI”要求整个影视生产制作流程中绝大多数成本都由AI完成。
未来,在落地产业的过程中,随着产品不断成熟,积累一定用户规模,整个行业也逐渐形成共识后,聚力维度会考虑将产品面向C端开放。“在行业还没有形成一定规模和共识,尤其在目前的资本环境下,直接面向to C是一个不太符合商业规律的选择。”他解释道。
影视行业最大的痛苦来源于“不能”
关于AI对内容行业的影响,舆论有不少批判的声音。国内外均有媒体直言,“互联网正在被AI生产的垃圾内容侵占”。
“某种程度上,这是一种传统思维的陷阱。”赵天奇表示。
毕竟,即使没有AI,在人类创作者主导的UGC内容生产模式下,互联网上依然存在大量低质内容。在赵天奇看来,“用AI提高内容生产效率”和“对AI进行内容管控”是两个并行存在的问题,聚力维度的目标是实现前者。
“人类最大的痛苦来源于‘不能’。”赵天奇说,这才是影视行业多年的痛苦来源。
赵天奇和影视行业内部沟通时发现,影视行业的最大痛点在于,生产力约束导致整个行业效率很低,是一个不健康的劳动密集型产业。同时,内容创作和受众的消费喜好也有很大不确定性,制作方便需要更高的投入来弥合可能的风险。
以电影制作为例,一部电影在商业上是否成功的标准是“票房”,为了实现高票房,制作方需要组建豪华团队,包括知名导演编剧,当红流量演员,最好的拍摄、后期以及宣发团队,以此来尽可能吸引更多人贡献票房。在此基础上,电影制作周期长达数月到数年不等,投入成本达到百万级、千万级,甚至上亿级。
正如赵天奇所言:“电影是奢侈品,本质上是一个投入越高、风险越低的事情。”即使将最好的资源都堆在一部电影上,电影上映后,依然会出现票房爆冷的情况,前期投入的大量时间、资源最终都打了水漂。
这就导致制作电影的权利被少数人垄断,很多编导、演艺方向的学生毕业即失业,有才华的创作者苦于缺少优质资源而无法实现自己的创意。“很多人上学的时候都想当导演,但实际情况是,假设一家动画公司有300人,可能只有两个导演,因为必须有其他298个人去手K动画,才能让两个导演把自己的故事做出来。”
而在AI的出现,则有可能解放更多人的创作力,当每个创作者都能够将自己的创意转化为一部影视作品,整个内容市场的蛋糕越来越大,好内容的产量自然会随之增加。
“解放生产力永远都是正确的。现在我只怕AI还不够强,还没有达到解放生产力的能力。”赵天奇表示,“我认为最理想的生产力发展方向,是让一件高价值的事情,以低成本的方式去做;让一个人创造的价值,服务于世界上其他几十亿人。
反过来看,几十亿人创造的价值也都能服务于你。”
接下来,赵天奇将继续带领团队探索AI影视下一代技术的突破口。未来,聚力维度希望借助全流程3D AI影视制作平台赛博演猿cybactor,让每一个有导演梦的人单独完成全流程影视制作,并将降低成本到1%。
“毕竟我们一直在挑战未知,总是要看向未来的。”赵天奇说。