谁来给中国大模型落地打个样?

题图|视觉中国

2024年,是大模型走向应用的关键之年。

由Transformer技术所引爆的大模型浪潮,曾以迅雷不及掩耳的姿态横扫了全世界科技行业,给很多人带来了“危机感”。但随着时间的推移,在热度下降之后,“大模型”也开始面临对新技术的固有挑战——落地应用。

原因很简单:脱离了落地应用,“卖铲人”神话也好、AI狂潮也好,都逃脱不了破灭的命运。

AI行业深谙这个道理,更偏向于独立App生态的海外市场,各种由大模型驱动的AI应用2024年如雨后春笋般出现;而更偏向于由大厂带头突破的国内,几大基础大模型在各自基础能力PK前进的同时,也在内置智能体的数量和丰富度等维度展开了激烈的竞争。

在这种大模型竞争全面深化的趋势下,如何找准接下来落地应用的发展路线,显然成为国内一众大模型的“胜负手”。

大模型应用落地的关键,是要“超越”技术

在大模型走向应用落地的过程中,有种看法一直颇为流行——大模型带来的技术飞跃足够大,因此只要找到“杀手应用”,就能一下子实现技术的落地应用和普及。

这种继承自前几波技术浪潮,可以总结为“只要造好了锤子就能找到钉子”的思维,其实忽略了一个现实:世界上90%的事情用最简单数字化规则(例如基础编程语言)就已经可以运转得很好,完全不需要用AI大模型来改善。

剩下的10%最困难、最需要人脑智慧的高价值任务中,大模型AI目前能够独立解决的也很少。少数大模型AI能够独立给出“结果”的应用,其价值更是长期处于“非常暧昧”的状态。

就拿智能体来说,在ChatGPT最为火热的时候,它似乎就成为了AI解决问题的一切手段,任何新需求都能通过一个智能体或者多个智能体协作来完成。

但实际情况是,这些主要依赖LUI(语言交互界面)的智能体虽然五花八门,学习了海量资料,却普遍存在“沟通成本高+输出质量不稳定”的大模型先天缺陷,其输出内容的类型和方式也相当有限,极大地限制了进一步的应用落地。

这些曾经大热的大模型落地方向之所以走不通,恰恰是因为很多时候我们过于关注一些流行的概念或技术,而忽略了要解决的根本问题是什么。

因此想要大模型获得应用落地,最关键的还是找对用户需求,开放地运用各种技术更高效率地解决问题,而不是陷入到“只用大模型能力”来解决问题的怪圈之中。

用人话来总结,AI也只是解决问题的“工具”,是手段而不是目的。

最终实现两个独立目标“技术驱动产品”、“产品体验驱动用户增长,实现落地应用”。这两点也是当前阿里通义将大模型带向落地应用的核心思路。作为阿里AI战略的排头兵,通义为中国大模型落地打了个样。

如何实在与先进并存?

基础思路已经夯实的通义,在寻找用户需求这件事上,核心思路是把“不懂技术的用户使用AI的门槛”打下来。

大模型的底层创新Transformer神经网络,核心突破是特别擅长处理长篇幅文字内容。它能够理解和生成连贯、复杂的文本内容;所以海量自然语言、文本的场景一直是大模型最明确的“舒适区”。

需要接触大量知识、会议、交流的工作学习领域,显然处于这个“舒适区”的正中央。如何首先“攻克”这个领域,就成了各家大模型落地应用的必争之地,目前走在最前列的,就是通义。

谁来给中国大模型落地打个样?

今年8月底,通义对自己的网页版产品进行了一轮大升级,将“通义听悟”、“通义智文”两个产品升级成“实时记录”和“阅读助手”,同时还加上了新的“PPT创作”,将这一系列能力打包成了全新的“通义效率”,一口气覆盖了办公学习的大部分场景。

其中“实时记录”主要负责将现实中的语音记录下来,并且通过翻译、编辑、AI总结等提取其中的信息;“阅读助手”则可以对各种文档、网页链接进行信息总结、知识筛选提炼;“PPT创作”,则可以利用大模型直接根据少量核心信息,输出具备逻辑性且美观的展示材料。

三者结合在一起,最终构成了一个信息获取整理、资料阅读理解到思考内容展示的完整工作学习流程。

如果说整体板块的完整工作流还不算什么,那么通义对于单个功能的细分工作流完善,真的可以说是“令人发指”。

就拿“实时记录”来说,只要有麦克风,就能对中、粤、英、日四种语言进行实时语音转文字,同时英文/日语还能直接转译成中文。

谁来给中国大模型落地打个样?

在完成最基本的语音转录文字和翻译的同时,其界面也针对实时场景做足了优化。例如左侧的转录板块之上,就附带了“搜索”、“查找与替换”、“发言人筛选”、“批量摘取”、“翻译”、“发言人区分”、“AI改写”7个功能。

用户可以借助这些工具,快速地对转录内容进行查找、修改、编辑、提取。完全不用迷失在冗长的转录内容之中。

右侧的功能板块则将“导读”、“脑图”、“笔记”三个功能结合在了一起,“导读”可以对转录内容进行AI总结、摘要;“脑图”则可以将根据转录内容整理出思维导图,让用户快速掌握会议要点和脉络;“笔记”则提供了完备的在线编辑能力,用户不仅可以写下文字记录,同时还能插入录音的“时间戳”、插入截图、甚至是直接插入表格和任务列表。

这一整套从实时录音输入,到最终结果输出的核心能力集合,直接覆盖了会议记录、课堂记录等核心场景,在多个环节之中穿插的AI大模型能力,更是让整个信息处理流程顺畅了起来,既实现了AI大模型功能的落地,同时也给用户带来了效率和使用体验的飞跃。

“阅读助手”和“PPT创作”同样能看到很多细节的打磨。

“阅读助手”采用了类似于“实时记录”功能的板块设计,右侧一口气集合了“导读”、“翻译”、“脑图”、“笔记”四个功能。虽然布局相似,但“翻译”被很细节地从左侧移到了右侧,一下子就提供了极佳的外语文档阅读体验,可以逐段对照地查看原始文档和全文翻译结果。

而“PPT创作”支持一句话、上传文件和长文本生成PPT,在完成首次生成之后,也可以进行文字内容修改,甚至是直接召唤大模型帮忙一起优化文案。PPT上面的任何一张AI生成的图片也可以点击进行替换,通义甚至贴心地为用户附上了“咒语书”,帮助用户优化约束图片生成效果。

为了便于用户使用,这些能力也集成在了通义App首页中。当然,不能不提的是,通义出色的用户体验除了仰仗产品优秀设计与细致打磨,也离不开通义快速跃进的基础模型能力。

今年6月,阿里发布了开源模型Qwen2-72B,一经推出就在全球各个大模型排行榜中成为了全球性能最强的开源模型。

谁来给中国大模型落地打个样?

到了今年9月的云栖大会,通义旗舰模型Qwen-Max全方位升级,在诸多大语言模型权威基准测试中,直逼甚至超越全球最先进的OpenAI GPT-4o;其中通义千问新一代开源模型Qwen2.5中的旗舰模型Qwen2.5-72B更是超越了Meta的Llama 405B(模型参数量更少,但是测试成绩更好),再次登上全球开源大模型王座。

这种“产品”与“技术实力”的交相辉映,也延续到了如今大模型最热的视觉领域。在9月更新大语言模型“通义千问”的同时,阿里也更新了自己视觉大模型“通义万相”,让其AI生图、AI生成视频的能力再次获得了提升。

“通义万相”视频生成模型主打更能听懂中国话,更懂中国风的特点。用户只要输入任意文字提示词,例如画面内容、空间构图、运动过程、运镜方式,就可以生成影视级高清视频,以及与画面匹配的音效。

用户还可以通过灵感扩写功能,对自己的提示词进行智能丰富,进一步提升视频内容表现力;图生视频功能更是支持用户将任意图片转化为动态视频,通过提示词来控制视频运动。

阿里团队在“通义万相”中突破性地采用了Diffusion Transformer架构,并且从一开始就采用了中英文双语标注,让中文文生视频内容的创作能力实现了飞跃。在模型发布的同时,用户可通过通义APP及通义万相官网免费体验,率先做到了“技术到应用”的全链路发展。

谁来给中国大模型落地打个样?

过去一年,通义实现了多个里程碑式跨越,从大语言到视频生成到多模态模型,大模型的能力边仍在不断扩展,在数学、代码及推理等能力上持续攀升。基于这些模型能力,通义App与PC端也持续上新,用户可以与李白数字人对诗、视频实时讲解数学题、一句话生成应用,即时体验大模型带来的全新体验。

随着未来更多底层大模型技术突破的出现,拥有海量AI人才和投入不设上限的阿里,必然能进一步丰富通义自身领先的基础大模型能力。再以“解决实际问题”、“让所有人用上”为逻辑,将各种大模型的能力与阿里出色的产品化能力相结合,最终做到大模型“实打实”的落地与应用。

也就是标题所提到的:既要超越技术,又要实在与先进并存。

坚持本心的通义

如果说“让AI实打实落地应用”还只是通义天生的使命,那么对于“开源”、“让技术和产品说话”、“要有爱”的坚持,则能直接体现通义的本心。

放眼整个大模型行业,坚持开源政策的就没几家,更别说分秒必争的头部厂商。但通义基于促进创新、促进社区、促进生态的宗旨,每次更新基础大模型都会直接开源。就拿上文提到的、能打败Meta Llama的Qwen2.5-72B模型来说,也是发布即开源。

这种对于技术的本质坚持,也体现在了落地的“形式”上。

上个月底,几张国产AI产品广告投放金额的图片在AI圈内彻底火了起来,因为其中好几个国产AI大模型的季度投放都已经破亿。让不少围观者感叹道“这就去学做AI博主”、“用不用不知道,但说的是真的好听”。

相比之下,通义的投放堪称“可怜”,一个季度仅有450万元。除了发布新版本的时候露个脸,剩下的全靠产品自己说话。这份自信,来自于通义强大的技术实力和产品力,哪怕投放少,用户对通义产品的好评源源不断,所累积的好口碑反而是靠钱堆出来曝光量换不来的。

今年7月,通义联合上海美术电影制片厂推出国内首个孤独症儿童AI绘本工具“追星星的AI”。这个调用了通义万相多项能力、搭载在通义App中的应用,可以在提供简单提示词、篇幅、主角性别、避免出现内容的情况下,快速而自动地自动生成一篇图文并茂的绘本故事,并且自动为用户朗读。

这种极为高效的绘本生成能力,让孤独症儿童有了进一步融入社会的可能性,在社交交往、正向情绪、语言沟通及行为矫正等方面施展积极干预效果。

很显然,通义在坚持“以技术驱动产品,以产品体验驱动用户增长”的同时,也没忘了对于“AI有爱”的坚持。

全面拥抱开源精神、让产品自我证明、让AI充满温情,这些原则虽然看似与技术硬实力无直接关联,但实际上它们深刻体现了通义的核心理念:将人工智能发展为一种普遍的生产力,使之普及至每个人。

秉承着“以终为始”的思维模式,通义正以其雄厚的技术实力和卓越的产品力,势不可挡地引领着新的变革。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com