来源:MIT News | 图注:“如果我们希望利用这些技术进行新的发现,大型语言模型是否是建立在连贯的世界模型之上的是一个非常重要的问题。”Ashesh Rambachan 说。图片由 iStock 提供
尽管大型语言模型(LLMs)可以完成令人印象深刻的任务,比如写诗或生成可行的计算机程序,这些模型的训练目标却只是预测文本中下一步可能出现的单词。
这种令人惊讶的能力让人感觉这些模型可能隐约学到了一些关于世界的通用真理。
但一项新的研究表明,事实并非如此。研究人员发现,一种常见的生成式 AI 模型可以在纽约市提供接近完美准确性的逐步驾驶路线,但实际上并没有形成准确的城市地图。
尽管该模型在导航方面表现得极为出色,当研究人员关闭了一些街道并添加了绕行路线后,其表现迅速下降。
深入分析后,研究人员发现,该模型隐含生成的纽约地图包含许多不存在的街道,这些街道以弯曲的形态连接了远离网格的交叉路口。
这一现象对生成式 AI 模型在现实世界中的应用可能产生严重影响,因为一个在特定环境中表现良好的模型,在任务或环境稍有改变时可能会崩溃。
“我们曾希望,既然 LLMs 可以在语言任务中完成这些惊人的事情,也许我们可以将这些工具应用于科学的其他领域。但如果想用这些技术进行新发现,弄清楚 LLMs 是否正在学习连贯的世界模型是非常重要的问题。”研究资深作者、MIT 经济学助理教授以及 MIT 信息与决策系统实验室(LIDS)的主要研究人员 AsheshRambachan 说道。
这篇论文的第一作者是哈佛大学博士后 KeyonVafa,其他合作者包括MIT电气工程与计算机科学(EECS)研究生 JustinY.Chen,康奈尔大学计算机科学与信息科学教授 JonKleinberg,以及 MIT EECS 与经济学教授 SendhilMullainathan(LIDS 成员)。研究成果将在神经信息处理系统会议 NeurIPS 上发表。
新评估指标
研究人员将重点放在一种被称为 Transformer 的生成式 AI 模型上,它是 GPT-4 等大型语言模型的核心技术。Transformers 通过训练大量语言数据来预测序列中的下一个标记(如句子中的下一个单词)。
但研究人员指出,如果科学家希望判断 LLMs 是否形成了一个准确的世界模型,仅测量其预测的准确性还远远不够。
例如,研究发现,Transformer 几乎每次都能预测出四子棋(Connect 4)的有效棋步,但实际上并不了解游戏规则。
因此,研究团队开发了两个新指标,以测试 Transformer 的世界模型。研究重点围绕一个被称为确定性有限自动机(DFA)的问题类别展开。
DFA 是一类具有状态序列的问题,例如到达目的地时必须经过的交叉路口,以及沿途需要遵循的明确规则。
研究团队选择了两个 DFA 问题:纽约市街道导航和奥赛罗(Othello)棋盘游戏。
“我们需要一个测试环境,其中我们明确知道世界模型是什么。这样我们才能严格地思考恢复这些世界模型的含义。”Vafa 解释道。
第一个新指标“序列区分度”测试模型是否能够辨别两种不同的状态(如两个不同的奥赛罗棋盘)及其差异。Transformer 使用有序的数据点列表(序列)来生成输出。
第二个新指标“序列压缩度”测试一个具有连贯世界模型的 Transformer 是否能识别两个相同状态(如两个相同的奥赛罗棋盘)具有相同的下一步可能性序列。
研究人员使用这些指标测试了两类常见 Transformer 模型:一种在随机生成的序列数据上训练,另一种则在通过策略生成的数据上训练。
不连贯的世界模型
令人惊讶的是,研究发现随机选择的 Transformer 模型比使用策略训练的模型生成了更准确的世界模型,可能是因为前者在训练中看到了更多潜在的下一步选择。
“在奥赛罗中,如果你观察两个随机计算机对战,而不是冠军玩家对战,理论上你会看到所有可能的棋步,包括那些冠军玩家不会选择的错误棋步。”Vafa 解释道。
尽管这些 Transformer 模型几乎总是能生成准确的导航方向和有效的奥赛罗棋步,但新指标显示,仅有一个模型为奥赛罗棋步生成了连贯的世界模型,而没有一个模型在导航问题上表现良好。
研究人员通过在纽约市地图中添加绕行路线进一步验证了这一点,这导致所有导航模型均失效。
“让我惊讶的是,一旦我们添加了绕行路线,模型的表现下降得如此迅速。如果我们关闭 1% 的可能街道,准确率会从接近 100% 迅速下降到 67%。”Vafa 表示。
当研究人员恢复这些模型生成的城市地图时,发现它们更像是一个想象中的纽约市地图,上面有数百条街道交错分布,有些街道甚至悬浮于其他街道之上,或者呈现出不可能的方向。
这些结果表明,尽管 Transformer 模型在某些任务中表现出色,但它们并未真正理解规则。如果科学家希望构建能够捕捉准确世界模型的 LLMs,需要采用不同的方法。
“我们常常看到这些模型做出令人印象深刻的事情,就以为它们一定理解了世界。我希望我们能让人们意识到这个问题需要仔细思考,我们不应该仅仅依靠直觉来得出结论。”Rambachan 说道。
未来,研究人员希望解决更多样化的问题,例如那些规则部分已知的问题。他们还计划将其评估指标应用于现实世界中的科学问题。
这项研究部分由哈佛数据科学计划、美国国家科学基金会研究生奖学金、Vannevar Bush 教授奖学金、Simons 合作基金以及 MacArthur 基金会资助。
https://news.mit.edu/2024/generative-ai-lacks-coherent-world-understanding-1105