OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

⋅ 2024-12-09 11:02:53 ⋅ 阅读 ⋅ 智能

机器之心报道

编辑：Panda

强化微调可以轻松创建具备强大推理能力的专家模型。

昨天关于 o1 和 200 美元一个月的 o1-pro 的新闻已经消化完了吗？咱们该夸夸，该吐嘈就吐嘈，但也不得不说，OpenAI 是懂营销宣传的，至少这个 12 天连续发布的策略着实是赚足了眼球。

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

Mark Chen 首先表示，今天发布的强化微调「允许你将你的黄金数据集转化为独特的产品，这将能让你将我们具有的神奇能力提供给你自己的用户和客户。」但它实际上要到明年才会真正公开推出。

OpenAI 微调团队 Steven Heidel 也在 X 上给出了一句话总结：

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

下面展示了一个具体数据样本。可以看到其中包含三项：病例报告（包含基本信息、症状以及没有的症状）、指令和正确答案。

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

在强化微调的训练过程中，模型并不能看到正确答案。在给模型提供病例报告和指令之后，模型会输出如上图底部所示的响应 —— 一个基因列表，其中排在第一位的基因是模型认为最可能的基因，以此类推。

接下来，还需要上传一个验证数据集。验证数据与训练数据的格式完全一样，但内容没有重叠。这样才能验证模型能否在该任务上进行泛化，而不仅仅是记住了训练数据。

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

在训练过程中，强化微调的「强化」部分就体现在评分器（Grader）的使用上。其设计思路很简单，评分器会比较模型输出与正确答案，然后返回一个 0 到 1 之间的分数。0 表示模型的输出中不包含正确答案，而 1 表示正确答案在输出的第一个位置。如下图所示，正确答案在第 2 个位置，评分器给出了 0.7 的分数。

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型