杨立昆最新访谈：AI 很像一个「盲人摸象」的故事

⋅ 2024-12-07 08:02:28 ⋅ 阅读 ⋅ 智能

近年来，人工智能（AI）大模型在文字、图像、视频等领域展现了强大性能。然而，它们是否能够持续学习进而理解物理世界， 实现人类级智能，仍然是一个亟待解答的问题 。

日前，图灵奖得主、Meta 首席科学家 Yann LeCun（杨立昆）接受了印度企业家、投资者 Nikhil Kamath 的专访。

在访谈中，Yann LeCun 谈到了他对于 AI 的独特理解，并介绍了自监督学习、transformer、卷积神经网络等。他还 详述了大语言模型（LLM）在理解物理世界和实现持久记忆方面的挑战以及可能的解决方法 ，并对 AI 的未来做了预测。

他乐观地认为， 目前人类距离通用人工智能（AGI）并不遥远 ，“我不认为我对于离 AGI 还有多远的看法，与你从 Sam Altman 或 Demis Hassabis 那里听到的非常不同。你知道的，很可能在十年内， 但不会在明年或近两年发生 。”

学术头条在不改变原文大意的情况下，对部分访谈内容做了精编。内容如下：

Nikhil Kamath ：我们很多人都听说过围绕 AI 的猜想，既有积极的一面，也有消极的一面。今天，我们希望可以清楚地理解 AI 对于所有人来说究竟是什么，我们是如何到达这一步的，以及未来会怎样。

我们先从什么是 AI 开始。

Yann LeCun ：好的，这是一个好问题。甚至我们还要问，什么是智能（intelligence）。 在 AI 的历史上，我认为什么是 AI 的问题有点像是盲人摸象的故事。 智能有非常不同的方面，纵观 AI 的历史，人们对什么是智能提出了一种观点，并基本上忽略了所有其他方面。

20 世纪 50 年代，人们认为智能就是推理，那么我们应该如何进行逻辑推理呢？如何寻找新问题的解决方案呢？

人们当时发现，当我们遇到问题时，可以将其形式化为一个特定的数学问题。例如，一个经典的问题是旅行推销员问题（Traveling Salesman Problem）：给定一堆城市，如何设计出经过每个城市的最短路径？这种问题可以看作一种优化问题。 优化的本质是寻找一个问题的解决方案 ，通过一个数值（比如路径长度）来衡量解决方案的好坏，数值越小，解决方案越好。

Nikhil Kamath ：那么，寻找解决方案与智能有关吗？如果你问我什么是智能并用一句话定义，我会感到目瞪口呆。

Yann LeCun ：是的，正确的。这实际上又回到了大象的例子。

Nikhil Kamath ：能解释一下这个大象的例子吗？

Yann LeCun ：好吧，你肯定知道盲人摸象的故事。第一个盲人走到大象身边说，这摸起来像堵墙。第二个盲人走到大象腿旁边说，这摸起来像棵树。第三个盲人摸到了大象的鼻子，说这是根管子。没有人能完整地了解大象是什么，你会从不同的角度看到它。

因此， 智能的一个角度就是寻找解决方案。 但你知道，寻找特定问题的解决方案只是“大象”的一小部分，只是智能的一个方面，不是全部。

但从 20 世纪 50 年代至 20 世纪 90 年代，当时占据主导地位的 AI 分支基本上只关注到这一点，认为 AI 就是寻找问题的解决方案，就是去“规划”。例如，将一堆大小不一的物体堆叠起来，需要规划堆叠的顺序；或者控制机器人手臂抓取一个物体时，需要规划避开障碍物的路径。这些都属于“规划”问题的范畴。

然而，这一分支完全忽略了感知问题，例如怎样理解世界、识别物体或将物体从背景中分离出来。这些问题在当时并未被重视。

Nikhil Kamath ：是的。

Yann LeCun ：与此同时，还有另一个 AI 分支也始于 50 年代 。这一分支试图重现人类和动物的智能机制 。动物和人类的大脑通过连接的神经元网络进行自我组织和学习。智力并非自发生成，而是从大量简单元素的网络中涌现而出。

20 世纪 40 到 50 年代，人们开始认识到，智力和记忆来自神经元之间连接强度的变化。大脑通过调整神经元之间的连接强度来学习。科学家基于此提出了理论模型，并设计了能够模拟这种行为的电子电路，试图以此重现智力的机制。你知道，我们可以建立。

Nikhil Kamath ：所以，你是说，智能主要是解决某个问题的能力？

Yann LeCun ：是的，这是我们刚刚提到的第一个观点， 第二个是学习能力 。这就是 AI 的两个分支。

Nikhil Kamath ：好的。

Yann LeCun ：所以，关注学习能力的分支在 20 世纪 50 年代末、60 年代初取得了一些成果。但在 60 年代末消亡了，因为事实证明，那些在 60 年代设计的神经网络的能力是极其有限的，不能用于生产真正的智能机器。但它对工程的各个部分都产生了影响，例如产生一个称为模式识别的工程领域。

Nikhil Kamath ：嗯，所以你现在说的智能也是系统学习的能力？

Yann LeCun ：学习，是的，你需要机器学习来感知，解读图像、声音、语音。

Nikhil Kamath ：那么，如果我们需要画一棵 AI 树，AI 是在最上面的，其下是机器学习，机器学习有三种类别，其下是不同的神经网络，再下面是强化工具，比如深度学习，之后是 LLM，这是现在最流行的。

Yann LeCun ：是的，正确的结构是顶部是 AI，之后机器学习是解决 AI 问题的一种特殊方法。深度学习，它确实是当今 AI 的基础，然后，神经网络有很多层，这仍然是我们所做一切的基础。再此之下，有几个架构系列，卷积网络、transformer 及其组合，再然后，在 transformer 下面会放置图像或音频识别、自然语言表示这些功能。

然后还有一个子类别，LLM，它们是自回归 transformer。Transformer 有特殊的架构使它们能预测下一个 token，所以能被用来生成 token。这就是自回归预测。

Nikhil Kamath ：而且它最适合文本，但不适用于图片、视频或任何其他内容？

Yann LeCun ：是的。LLM 适用于文本而不适用于其他事，是因为文本是离散的，因此可能发生的事情是有限的，但如果你想预测视频中会发生什么，可能的帧数之类，本质上是无限的。就比如说，一幅图像，1000*1000 像素，像素又是有颜色的，有三个值，这说明必须要生成 300 万个值。我们不知道怎样用概率分布去表示超过 300 万像素的所有可能图像的集合。

Nikhil Kamath ：但这正是大家所关注的事情。

Yann LeCun ：这是我们很多人认为 AI 的下一个挑战。基本上，你有一个可以通过观看视频了解世界如何运作的系统。

Nikhil Kamath ：如果你要说从视频和图片中学习，这将是下一个阶段，这一阶段会在 LLM 的当前位置吗？

Yann LeCun ：不，它与 LLM 截然不同， 我一直直言不讳地说 LLM 不是通往人类级智能的道路 。 LLM 适用于离散世界，它们不适用于连续的高维世界，视频就是这种情况。

这就是为什么 LLM 不了解物理世界。尽管 LLM 在语言方面的功能是惊人的，但它们可能会犯非常愚蠢的错误，这表明它们不了解世界是如何运作的，不了解底层世界。所以我一直地说，最聪明的 LLM 都不如你家里的猫聪明，这是事实。

那么， 未来几年的挑战，是建立解除 LLM 限制的 AI 系统。建立能够理解物理世界，有持久记忆的系统。

Nikhil Kamath ：持久记忆？

Yann LeCun ：是的，持久记忆意味着它们可以记住任何事情，将事实存储在内存中，然后在需要的时候检索。

Nikhil Kamath ：LLM 现在记不住东西吗？

Yann LeCun ：LLM 有两种类型的内存。第一种类型在参数中，在训练期间调整的系数中，它们在这一过程中会学到一些东西，但这并不是真正存储一条信息。如果你在一堆小说上训练 LLM，它无法反驳小说，但它会记住一些关于那本小说中单词的统计数据，它也许能回答问题，关于故事和类似事情的一般问题，但它无法复述所有单词。

Nikhil Kamath ：这有点像人类，对吧？

Yann LeCun ：你读一本小说，你不可能记住所有单词，除非你花费很多精力，这就是第一种记忆。上下文是第二种记忆。你输入提示（prompt）。

并且由于系统能够生成单词，这些单词或 tokens 被注入到输入中，可以用作某种工作记忆，但这是一种非常有限的记忆形式。你真正需要的是一种更接近于人类大脑海马体功能的记忆。哺乳动物有一种叫海马体的东西，是大脑中心的一个结构。如果你没有海马体，你将无法记住超过 90 秒的事情。

Nikhil Kamath ：所以如果 AI 可以预测未来，这是乌托邦还是反乌托邦？

Yann LeCun ：这将是乌托邦。因为除了我们的大脑之外，还有一种预测未来的方法，通过规划动作序列以满足特定条件来实现目标，这也许需要积累很多的知识才能够做到这一点，也许拥有人类不具备的能力，因为人脑有局限而计算机能够有计算之类的能力。

所以， 如果这个计划在未来取得成功，可能五年到十年内，我们可以让 AI 达到人类水平的智能。 这可能是乐观的，对吧？

Nikhil Kamath ：像通用人工智能（AGI）和人类级智能，你认为很遥远或者不太可能？

Yann LeCun ：不，我不认为这些是遥远的。我不认为我对于离 AGI 还有多远的看法与你从 Sam Altman 或 Demis Hassabis 那听到的非常不同。很可能在十年内，但这不会在明年或近两年发生。它需要更久的时间。

而且， 如果只是扩大 LLM 规模、使用更大的计算机和更多的数据来训练它们，这样的方法是行不通的 。我们必须要拥有那些新的架构，那些 JEPAs （世界模型架构），以及能从现实世界中学习、可以分层规划的系统。而不是不加思索一个接一个产生单词。所以，要系统 2，而不是系统 1。LLM 是系统 1，我所描述的架构，我称之为“目标驱动 AI”，是系统 2。

Nikhil Kamath： 今天我们试图定义什么是智能。我是这样写的：智能是信息的集合以及吸收新技能的能力。

Yann LeCun： 智能是技能的集合，以及快速学习新技能的能力。或者无需学习即可解决问题的能力。 这在 AI 领域被称为 zero-shot。将三者结合就是所说的智能。

Nikhil Kamath： 非常感谢你，Yann，感谢你所做的一切。

Yann LeCun： 谢谢。

访谈链接：

https://www.youtube.com/watch?v=JAgHUDhaTU0&t=316s

整理：阮文韵

如需转载或投稿，请直接在公众号内留言

- THE END -

打赏

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-12-07 08:02:28

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/zhineng/43477.html

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

评论（共条评论，人围观）