对话彩云科技CEO袁行远：10年AI狂飙，中国大模型发展不应只有OpenAI一条路｜钛媒体AGI

⋅ 2024-11-17 10:09:27 ⋅ 阅读 ⋅ 探索

（图片来源：pixabay）

随着Scaling Law（尺度定律）遭遇瓶颈，GPT-5训练时间推迟，所以全球 AI 技术领域的竞争正在从 AI 模型“卷”向 AI Agent模型应用层面。

北京时间11月15日，美国OpenAI公司发布ChatGPT桌面版新功能，支持理解、读写VS Code、Xcode等工具以开发应用。

早前有消息指，OpenAI即将推出代号为“Operator”新AI Agent（代理）应用，可模仿人类操作执行编写代码、预订酒店、机票等任务；同时，谷歌AI大模型Gemini移动版登陆苹果App Store应用商店上；此外，DeepL则推出实时文本翻译产品DeepL Voice，目前公司估值已超20亿美元。

相比海外，国内 AI Agent应用正在迅速发展，模型和应用正在同步突破。

作为快手创始人宿华最青睐的创业公司之一，成立十年的国内 AI 应用公司彩云科技，于11月13日发布业内首个基于DCFormer架构的通用大模型“云锦天章”，可实现在虚构世界观的基础上，赋予小说人物编程、数学等基础能力，拥有长文扩写、缩写等能力，目前已经开始向C端和部分中小企业端提供服务。而这是最新一款非Transformer架构的14B（140亿）参数模型。

同时，基于DCFormer架构，彩云科技还发布旗下AI RPG平台产品“彩云小梦”。

会后，彩云科技CEO袁行远对钛媒体App等表示，“（云锦天章是）世界最强的小说续写通用模型。”他认为，利用新的模型结构优化，用1%的资源达到了千亿模型同等效果，叠加后处理工作流到达AI的下个阶段，才有可能真正做到GPT-5。

“大模型基座调优（Pre-trained Model）这个事情，过去7年学术界、工业界（大家）都没什么进展，中国200多个大模型公司有哪一个不是Transformer架构？只有一个公司不是Transformer，就是彩云科技，而且我证明了这个东西它具有通用人工智能（AI）的潜力，且用更少的能源做到相同的效果。如果用1/10资源实现Transformer相同效果，那我们就不用百亿千亿参数规模训练。其他所有公司都用的是谷歌Transformer，因此只有彩云科技才能称之为‘全链路大模型公司’。”袁行远表示，中国不是做不出来ChatGPT，而是需要时间迎头赶上，最终得到好的结果。
对话彩云科技CEO袁行远：10年AI狂飙，中国大模型发展不应只有OpenAI一条路｜钛媒体AGI

彩云科技联合创始人、CEO袁行远

“100万DAU、ROI为正，是AI应用的死亡线”

彩云科技成立于2014年，是研发多款消费级应用产品的 AI 公司。

经过多年发展，彩云科技已孵化彩云天气、彩云小译、彩云小梦三款面向C端用户的AI产品，产品间接覆盖人数超过6亿人，并通过实施付费订阅等商业模式，实现了AI 技术商业化落地。可以说，彩云科技是国内为数不多能够实现盈利的 AI 公司。

创立彩云科技之前，袁行远曾在阿里巴巴从事算法方面的工作，并获山东科技大学数学系学士学位，清华大学经济管理学院硕士学位。然而，他从小就喜欢研究气象知识，因此并不希望安于现状，2012年，在集智俱乐部一场读书会上，与两位有相同想法的小伙伴一同创立了彩云科技。

袁行远坦言，公司创立一开始就是在想把一款天气工具进行“付费”，这在当时也是极少见的。而过去10年来，彩云科技的彩云天气、彩云小译、彩云小梦都以付费模式存在，实现了企业健康的商业循环。

其中，彩云天气是一款天气预测的APP，特色是通过AI技术“三维时空卷积神经网络”，实现国内首个分钟级天气预报，精度可以定位在街道级，C端累计用户超过5000万，DAU达到百万量级；彩云小译2017年上线，是全球首个中英同传APP，MAU在百万上下，有2.7万的付费用户，500万APP下载量，每天10亿翻译量；彩云小梦则于2021年上线1.0版本，是一款AI写小说的产品，同时发布海外版Dreamily，如今升级3.5版本——AI RPG平台，拥有AI对话、世界设定创作等功能，而且可以进行虚拟人物对话交流，日产数亿字。目前60%用户在中国大陆，40%为海外用户。

“根据我做彩云天气的经验，你要做到一个确实能够提供出增益价值的产品，然后你花很多年的时间去培养这个增益价值的习惯性，再在这个基础上去做增值服务，通过它来收取一定的会员费用，这个是比较合理的一种方式。我很喜欢简单的商业模式，因为我们做技术的嘛，就是发挥自己擅长的部分，那简单的商业模式就是我提供一个服务，你愿意为这个服务付费。”袁行远认为，这是一种良性商业模式。

袁行远强调，100万DAU（每日活跃用户）、收入数亿元、ROI为正，这是他给自己定下一款AI应用的死亡线，从而维持一家公司或一款大模型的研发迭代。

“我觉得能跑到 100 万 DAU，是我自己给自己定的一个及格线或者生死存亡线吧。如果有100万日活，那么你就是一个社区创业平台，这个应该是能够活下来，并且能够拥有至少几亿收入，从而能持续维持大模型的研发。当然，这是否意味着100亿美元以下就不要做大模型了，也不是这个意思，全世界可能一共就那几个人（有百亿美金）。所以，这中间有一种‘平衡’（balance），这是一个度，这个游戏也许在1亿或1000万美金量级之上，就能够支持这个模型研究的迭代。”袁行远称。

对话彩云科技CEO袁行远：10年AI狂飙，中国大模型发展不应只有OpenAI一条路｜钛媒体AGI

与此同时，当前彩云科技全力实现新的大模型技术研发。

早在2017年，彩云科技就已经开始做NLP和大模型方面的工作，是国内最早做LLM（大型语言模型）的公司之一。

近期，彩云科技团队提出基于可动态组合的多头注意力（DCMHA）的DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），解除MHA注意力头的查找选择回路和变换回路的固定绑定，可根据输入动态组合，从而提升模型表达能力，相比Transformer架构性能提升1.7倍-2倍。今年ICML会议上，彩云科技团队的3篇论文，在录用平均分为4.25-6.33的情况下，获得平均7分这一高分。

11月13日活动上，袁行远表示，Transformer架构距离“理想模型架构”还有很大的提升空间，除了堆算力堆数据的“大力出奇迹”路线，模型架构创新同样大有可为。往小了说，在大模型领域，利用效率更高的模型架构，小公司也可以在与世界顶级AI企业的对抗中取得优势。往大了说，模型效率的提升，可以有效地降低 AI 升级迭代的成本，加速AI时代的到来。

“Scaling Law告诉我们，随着算力的提升，模型更大、数据更多，模型效果会越来越好，但与之相应的，能耗也会越来越高，在Scaling Law失效，AI 实现之前，或许我们地球的能源就已经无法支撑了。”袁行远表示，“没有效率的提升，AI就是镜花水月。”

实际上，外界最想知道袁行远和他的彩云科技的一件事是，宿华是如何投资的？

成立至今，彩云科技共进行了5轮正式融资，除种子轮由袁行远，及他的朋友、同学提供外，首笔天使轮融资，来自田溯宁的云天使基金、宽带资本；五源资本的A1轮融资，估值3000万美元；快手提供A2轮融资，投前估值翻倍，达到6000万美元；B1轮来自大湾区家园共同基金，2021年完成。

去年，快手创始人宿华个人投资了彩云科技B2轮，投前估值达到1.2亿美元。

袁行远表示，很多投资人对其技术一线判断很强，尽管他不是做大模型，但其技术判断是很敏锐的，他说“这个东西非常好，但我担忧的是社会以后怎么办”。最终，袁行远获得了上述投资人青睐，也让彩云科技获得了更多的训练大模型“弹药”。

“也有朋友说，为什么中国没有出ChatGPT，原因是什么呢？因为中国程序员水平不行。我觉得不能说是中国程序员水平不行；还有人说，是因为简体中文语料不行，我们是全球使用语言最多的、母语最多的人，我们创造的东西是最多，我觉得绝对不能说是我们语料不行，也不是中国程序员不行。我认为需要给我们一些时间，迎头赶上，最终我们会得到一个好的结果。”袁行远表示。

展望未来，袁行远已下定决心，将不遗余力地持续加大对 DCFormer 的研究与投入力度。

袁行远强调，DCFormer所代表的模型结构优化这条路至少能发展10倍成长，未来 AI 真的很有可能取代刘慈欣的《三体》写作质量。当下，大家还是低估了 AI 的效果，如今DCFormer让1/10的资源和参数量获得相同效果，这有望是GPT-5未来发展的路线选择。

以下是钛媒体App等与袁行远之间的部分对话，经钛媒体编辑整理：

钛媒体：14B或7B参数的模型是否有“智能涌现”能力？因为有人说，基于Transformer的模型可能会需要千亿规模才有涌现。

袁行远：（涌现能力是）有的。我已经证明了这是伪命题，智能涌现大概在 6B（60亿参数）左右，（这是）学界的认知。

钛媒体：那你们是怎么减少“幻觉”问题？是对齐还是其他什么手段？

袁行远：从模型结构研究的这个角度讲，你可以去不断地 check（检查）这个事情，包括增加事实记忆力、互联网寻找、减少错误输出等方法。这是所谓的工作流check。

但我觉得现在问题不是“幻觉”，而是算力不足以去cover（覆盖）住你的问题规模，比如我要会诊，可能要很多人开会讨论俩小时去决定这个疑难杂症是什么病，人都需要很长时间，AI 更加需要算力支持。我觉得这个不是幻觉问题，而是“算力不够”的问题。

幻觉问题的话，就上述两个方式来尝试解决。此外，还有一点是，“幻觉”问题的本质是一个所谓“格式多于内容”，就是你要求大模型输出一个符合你认知的格式，它才有幻觉，否则它不知道，而人类大部分来讲会说不知道，你只要让大模型学会说不知道，那它的幻觉就会变少，所以这里面可能存在“应答率”和内容输出真实性的一个“博弈”。

对于云锦天章和彩云小梦来说，在小说创作这一部分，幻觉问题不会这么严重，甚至于它是一个正向作用。AI脑洞更大一些，可能会对作者更好，所以我们选了这样一个“赛道”。

钛媒体：你如何看待云锦天章大模型的商业化？你们需要把C端的 AI 服务更快获得收入吗？

袁行远：我做彩云天气的经验是，你要做到一个确实能够提供出增益价值的产品，然后花很多年时间去培养这个增益价值的习惯性。再在这个基础上去做增值服务，通过它来收取一定的会员费用，这个是我比较喜欢的一个方式。

因为我们做技术的嘛，就是发挥自己擅长的部分，那简单的商业模式就是我提供一个服务，你愿意为这个服务付费，而我就努力提高这个服务，你就一直为我这个好的服务付费，这个就很适合我。因为我们现在公司第一大收入就来自会员的连续订阅，我觉得这个是很好的。

还有一种新的“抽成模式”我觉得更好，你提供一个内容平台，然后这个游戏、小说内容平台通过 AI 辅助来产生，再让用户向内容创作者付费，你再从平台上抽手续费，手续费的收取是源于这个内容创作消耗平台 AI 能力，你的用户越多，你的网络规模效应越多，规模就越大。如果是100万日活的社区创业平台，至少几个亿的收入，（企业）应该是能够活下来的。

当然你说100亿美金以下不要做大模型，这也不现实，全世界可能一共就那几个人，那竞争就非常少，但如果你一个人自己硬要去做大模型，也不适合，所以这中间其实是有一个“度”，也许至少在1亿或1000万美金量级上，可以支持大模型结构研究迭代。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

- THE END -

打赏

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-11-17 10:09:27

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/tansuo/30146.html

月之暗面发布新推理模型：数学能力对标o1系列

评论（共条评论，人围观）