机器之心报道

编辑:Panda

强化微调可以轻松创建具备强大推理能力的专家模型。

昨天关于 o1 和 200 美元一个月的 o1-pro 的新闻已经消化完了吗?咱们该夸夸,该吐嘈就吐嘈,但也不得不说,OpenAI 是懂营销宣传的,至少这个 12 天连续发布的策略着实是赚足了眼球。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

Mark Chen 首先表示,今天发布的强化微调「允许你将你的黄金数据集转化为独特的产品,这将能让你将我们具有的神奇能力提供给你自己的用户和客户。」但它实际上要到明年才会真正公开推出。

OpenAI 微调团队 Steven Heidel 也在 X 上给出了一句话总结:

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

下面展示了一个具体数据样本。可以看到其中包含三项:病例报告(包含基本信息、症状以及没有的症状)、指令和正确答案。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

在强化微调的训练过程中,模型并不能看到正确答案。在给模型提供病例报告和指令之后,模型会输出如上图底部所示的响应 —— 一个基因列表,其中排在第一位的基因是模型认为最可能的基因,以此类推。

接下来,还需要上传一个验证数据集。验证数据与训练数据的格式完全一样,但内容没有重叠。这样才能验证模型能否在该任务上进行泛化,而不仅仅是记住了训练数据。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

在训练过程中,强化微调的「强化」部分就体现在评分器(Grader)的使用上。其设计思路很简单,评分器会比较模型输出与正确答案,然后返回一个 0 到 1 之间的分数。0 表示模型的输出中不包含正确答案,而 1 表示正确答案在输出的第一个位置。如下图所示,正确答案在第 2 个位置,评分器给出了 0.7 的分数。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

当然,有些任务的输出结果并不是列表形式,因此 OpenAI 也提供了其它评分器,可以「相当有效地覆盖你可能拥有的意图的空间」。并且他们也在不断增加更多评分器,未来也会支持用户自己定制的评分器。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

接下来,他演示了一个之前已经微调好的模型,以下截图展示了该模型的相关信息,可以看到基础模型是 o1-mini,经过强化微调后会得到一个输出模型。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

同一个页面中还能看到模型在验证数据集上的分数变化情况。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

那么,这个经过强化微调的 o1-mini 的表现究竟如何呢?评估结果表明,在 top@1(正确答案在列表第 1 个位置的概率)、top@5(正确答案在列表前 5 个位置的概率)和 top@max(输出中包含正确答案的概率)指标上,其表现都明显胜过性能更加强大的最新版 o1。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

下面展示了一些运行过程示例:

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

当然,强化微调是一种通用技术。理论上,只要有合适的数据集和评估器,你就能将 o1 训练成你的专业 AI 助手。

目前,OpenAI 仅支持强化微调的 Alpha 测试申请,并且名额有限,「非常适合正在与专家团队一起处理非常复杂任务的组织」,个人用户至少得等到明年了。如果你有需求,可以在这里尝试申请:

https://openai.com/form/rft-research-program/

同样,今天的发布也在一个圣诞笑话中收尾:

圣诞老人正在努力制造一辆自动驾驶雪橇,但由于某种原因,他的模型一直无法识别树木,导致雪橇老是撞树。你猜原因是什么?
因为他没有 pine-tune 自己的模型。

你看懂这个谐音梗笑话了吗?对强化微调又有何感想呢?

https://www.youtube.com/watch?v=fMJMhBFa_Gc