晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛

11 月发布 k0-math 时,杨植麟提了 23 次强化学习,17 次推理,7 次 o1。

文丨王与桐
编辑丨程曼祺

本月初经历仲裁风波后,月之暗面在 11 月 16 日发布新的数学模型 k0-math,当时月之暗面创始人杨植麟反复提到 “o1”:他将 k0-math 的测评评分与 o1 比较,称其思路与 o1 类似——都采用了强化学习和思维链技术。

o1 是 OpenAI 在今年 9 月发布的新模型,它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演讲中说,o1 的出现意味着大模型的范式转换:从预测下一个 token 的规模扩展( Next-Token Prediction Scaling)到强化学习的规模扩展(Reinforcement Learning Scaling)。

我们独家获悉,在探索新技术变化的同时,月之暗面近期引入一位新技术负责人——华为诺亚方舟实验室原 AI 基础理论团队研究员,刘征瀛。他正在月之暗面带队探索 o1 方向。

据了解,刘征瀛也曾被字节跳动高层邀请加入字节大模型团队,但他选择了加入创业公司。

刘征瀛本科毕业于北京大学元培学院,获得物理和数学双学位,后在巴黎萨克雷大学(Université Paris-Saclay)获得博士学位,主攻 AutoML(Automated Machine Learning,自动化深度学习) 方向。

AI for Math 是刘征瀛深入研究的方向之一,除发表数篇相关论文外,他在 2023 年的几次公开演讲都以 AI for Math 为主题。

据了解,k0-math 数学模型早在半年前已有雏形,当时内部代号为 “胖胖”。在今年初的月之暗面全员会上,杨植麟就将 “多阶段推理” 放到了年度规划里,k0-math 代表着月之暗面在多阶段推理能力上的努力。

与 o1 相关的成果还有,今年 10 月初,月之暗面推出了 Kimi 探索版,可实现多步思考和更深度地检索。

从成立至今,月之暗面长期被认为是中国大模型创业公司中,技术人才密度颇高的一家。月之暗面现在仍只有 100 多人,但汇集了杨植麟和周昕宇两位技术背景创始人,杨植麟发表过两篇大语言模型领域重要论文 [1],周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨,一起发表过单篇引用超 9000 次的卷积神经网络论文 [2]。

今年至今,月之暗面又陆续吸纳了曾在 Transformer 架构方向发表多篇论文的苏剑林,微软亚研院原多模态专家谭旭等人,如今刘征瀛也加入了月之暗面。

我们获悉,这段时间,月之暗面招聘的重点方向仍是算法人才。但另一方面,月之暗面对外释放模型和算法进展并不多。在 k0-math 之前,他们上一次发布模型动态是 2023 年底发布 moonshot-v1 系列。

在此前的采访中,杨植麟曾提到想要招募各个领域的 genius(天才)。杨植麟对天才的定义是:“天才不一定是先天的。也可以通过训练,重要的是有没有意识创新。”

创新依然重要,人才依然重要,算法和技术也依然重要,但随着大公司的投入,模型能力之外,产品相关的综合能力也成为现阶段的重要竞争因素:这包括设计优化、投放效率、留存转化和商业化策略等,和支持以上连环动作的钱与资源。后者是字节跳动等大公司积累多年的强项。

题图来源:Boys in the Boat

文中提到的论文分别为:

[1]XLNet: Generalized Autoregressive Pretraining for Language Understanding

Transformer-xl: Attentive language models beyond a fixed-length context

[2]Shufflenet: An extremely efficient convolutional neural network for mobile devices