机器之心报道
编辑:Panda
强化微调可以轻松创建具备强大推理能力的专家模型。
昨天关于 o1 和 200 美元一个月的 o1-pro 的新闻已经消化完了吗?咱们该夸夸,该吐嘈就吐嘈,但也不得不说,OpenAI 是懂营销宣传的,至少这个 12 天连续发布的策略着实是赚足了眼球。
Mark Chen 首先表示,今天发布的强化微调「允许你将你的黄金数据集转化为独特的产品,这将能让你将我们具有的神奇能力提供给你自己的用户和客户。」但它实际上要到明年才会真正公开推出。
OpenAI 微调团队 Steven Heidel 也在 X 上给出了一句话总结:
下面展示了一个具体数据样本。可以看到其中包含三项:病例报告(包含基本信息、症状以及没有的症状)、指令和正确答案。
在强化微调的训练过程中,模型并不能看到正确答案。在给模型提供病例报告和指令之后,模型会输出如上图底部所示的响应 —— 一个基因列表,其中排在第一位的基因是模型认为最可能的基因,以此类推。
接下来,还需要上传一个验证数据集。验证数据与训练数据的格式完全一样,但内容没有重叠。这样才能验证模型能否在该任务上进行泛化,而不仅仅是记住了训练数据。
在训练过程中,强化微调的「强化」部分就体现在评分器(Grader)的使用上。其设计思路很简单,评分器会比较模型输出与正确答案,然后返回一个 0 到 1 之间的分数。0 表示模型的输出中不包含正确答案,而 1 表示正确答案在输出的第一个位置。如下图所示,正确答案在第 2 个位置,评分器给出了 0.7 的分数。
当然,有些任务的输出结果并不是列表形式,因此 OpenAI 也提供了其它评分器,可以「相当有效地覆盖你可能拥有的意图的空间」。并且他们也在不断增加更多评分器,未来也会支持用户自己定制的评分器。
接下来,他演示了一个之前已经微调好的模型,以下截图展示了该模型的相关信息,可以看到基础模型是 o1-mini,经过强化微调后会得到一个输出模型。
同一个页面中还能看到模型在验证数据集上的分数变化情况。
那么,这个经过强化微调的 o1-mini 的表现究竟如何呢?评估结果表明,在 top@1(正确答案在列表第 1 个位置的概率)、top@5(正确答案在列表前 5 个位置的概率)和 top@max(输出中包含正确答案的概率)指标上,其表现都明显胜过性能更加强大的最新版 o1。
下面展示了一些运行过程示例:
当然,强化微调是一种通用技术。理论上,只要有合适的数据集和评估器,你就能将 o1 训练成你的专业 AI 助手。
目前,OpenAI 仅支持强化微调的 Alpha 测试申请,并且名额有限,「非常适合正在与专家团队一起处理非常复杂任务的组织」,个人用户至少得等到明年了。如果你有需求,可以在这里尝试申请:
https://openai.com/form/rft-research-program/
同样,今天的发布也在一个圣诞笑话中收尾:
圣诞老人正在努力制造一辆自动驾驶雪橇,但由于某种原因,他的模型一直无法识别树木,导致雪橇老是撞树。你猜原因是什么?
因为他没有 pine-tune 自己的模型。
你看懂这个谐音梗笑话了吗?对强化微调又有何感想呢?
https://www.youtube.com/watch?v=fMJMhBFa_Gc