2020 年,通过增加大模型参数量的方法,OpenAI 在具有 1750 亿参数量的 GPT-3 上发现,大模型可以根据提示词中提供的信息,来执行新任务或改进现有任务。
这意味着大模型不必进行任何梯度更新或微调,仅通过几个例子或简单的指令来执行新的语言任务(即上下文学习)。
自 ChatGPT 发布以来,大模型的参数量在不断扩大。目前开源社区已经迎来含有 4000 亿参数的大模型。
届时,不管是从时间成本还是金钱成本上来看,通过梯度更新来直接修改模型权重的微调方法,将变得十分昂贵且耗时。
目前,一个明显的趋势是大模型可容纳的上下文长度正在不断扩大,从最开始的 2 千个字符开始扩大到最大 2 百万个字符。
越来越大的上下文长度,意味着人类可以加入更多的完整目标指令数据,来支持更全面的上下文学习。
所以能否使用成本更低、更易管理的上下文学习来代替现有的成本高昂的模型参数微调方法成为一个亟待解决的重要研究课题。
基于此,瑞士洛桑联邦理工学院(EPFL,École Polytechnique Fédérale de Lausanne)硕士毕业生、瑞士洛桑联邦理工学院机器学习理论实验室研究助理赵皓于 2024 年和所在团队开展了一项研究。
图 | 赵皓(来源:赵皓)
当时,赵皓联系了正在 EPFL 机器学习理论实验室读博的马克西姆·安德烈伊什琴科(Maksym Andriushchenko)。
那时,赵皓已经拥有一些研究经验,并且研究兴趣也和 Maksym 的研究背景相契合,所以他们在开展课题上一拍即合。
不过,他们当时确立的研究课题与目前盛行的大模型截然不同。
当时,他们定下了题为“理解训练深度神经网络模型时的数据学习顺序”(Understanding the order of learning of training examples)的课题。
2023 年 7 月,为了汇报各自的研究论文,他俩一起参加了在夏威夷举办的国际机器学习大会(ICML,International Conference on Machine Learning)。
会上,因 ChatGPT 的发布而兴起的大模型研究热潮随处可见,来自各个国家的参会者无不在激动地讨论着有关大模型的各类话题。
他们当即也都意识到这是一个重要的研究机会,所以从夏威夷回来以后立即开会讨论,准备将实验对象从“传统的训练图像分类的深度神经网络”改为“指令微调基础大模型”。
在他们的合作之下,让 EPFL 机器学习理论实验室迎来了第一篇大模型顶会论文,相关论文发表于 ICML 2024,也帮助赵皓获得了 EPFL 优秀硕士论文奖的提名。
随后他们趁热打铁,一起研究能否使用上下文学习,来替代成本高昂的指令微调方法。
后来,在赵皓的硕士论文投稿到 ICML 2024 之后不久,Maksym 收到了来自 OpenAI 的邮件。
后者询问他们对于通过应用程序编程接口(API,Application Programming Interface)访问 GPT4Base 模型是否感兴趣。
赵皓表示:“我们收到邮件时感到非常意外和惊喜,立即着手准备申请。几周后,成功通过了申请,这让我们可以自由地通过 API 使用 GPT4Base 模型。”
在此基础之上,他和 Maksym 以及另一位同学弗朗西斯科·克罗塞(Francesco Croce) 开始思考如何通过上下文学习,来开展大模型对齐的研究。
研究之后他们发现:仅通过增加上下文学习中的训练数据,无法获得匹配相同基础模型下的 OpenAI 官方所发布对齐模型的表现。
虽然实验结果证明使用筛选的高质量数据可以显著提升对齐表现,但是也无法达到上述目的。
此外,通过公平地对比上下文学习和指令微调,他们在实验中得出如下结论:在低数据量的情况下,上下文学习可以用更低的成本可靠有效地代替指令微调,但是指令微调可以通过不断扩大高质量训练数据规模获得更显著的对齐表现提升,并且拥有更强的泛化表现。
(来源:arXiv)
基于上述发现,本次研究将能指导人们以更低成本、更高效地定制专门化的大模型。
(来源:arXiv)
对于现有的定制大模型方法来说,它主要通过在大量训练数据上做指令微调和人类偏好对齐,比如从人类反馈中进行强化学习。
对于每一个定制化应用的研发,开发者都需要保存每一个微调后的大模型(大小从几亿到几千亿参数),而这将导致庞大的计算和存储消耗。
如能通过大量样本下的上下文学习来对齐模型,那么只需保存一个基础大模型,以及相应的支持上下文学习的定制化提示词。
这样一来,就能完全避免微调模型带来的计算消耗,以及极大减小部署不同定制化模型带来的存储消耗。
同时,本次研究也可以帮助大模型领域的研究者更好地理解上下文学习的内在机理和其局限性。
日前,相关论文以《在大模型中上下文学习是否足以进行指令跟随?》(Is In-Context Learning Sufficient for Instruction Following in LLMs?)为题发在arXiv[1]。
图 | 相关论文(来源:arXiv)
目前相关论文已经整理并投稿到机器学习顶级会议之一,接下来研究团队也将思考如何进一步有效提升上下文学习的对齐表现。
希望能够指导大模型从业者更好地根据已有资源来权衡不同的方法,最终使用理想的对齐策略。
参考资料:
1.https://arxiv.org/pdf/2405.19874
运营/排版:何晨龙