关注本城公众号并设星标,不错过最新精彩内容

一文看懂:Anthropic创始人和团队最新5小时访谈聊了什么 (附视频中英完整版)

今天,Lex播客放出了和Anthropic创始人Dario Amodei以及核心团队的 访谈,长达5个小时,干货满满。作为了解Anthropic最新详细资料,是绝不容错过的。

可能很多人没时间看这么长的播客,本文和大家梳理了这次播客访谈的主要内容。访谈的中英完整版视频(以及全文文档)请见web3天空之城B站号:

https://www.bilibili.com/video/BV1qCmtYPELG/

大模型的能力:规模、学习和局限性

根据 Dario Amodei 在 Lex Fridman 播客中的讨论,大模型的能力与其规模、学习方式和内在局限性密切相关。

  1. 规模与能力的正相关关系:

缩放定律: Amodei 强调了“缩放定律”的重要性,这与我们在之前的对话中讨论的奥特曼的观点一致。更大的网络、更多的数据和更强的计算能力,就像化学反应中的三种必要成分,共同推动着模型能力的提升。

捕捉复杂模式: 随着模型规模的扩大,它们能够捕捉到越来越复杂和细微的模式。例如,小型网络可能只能理解简单的句子结构,而大型网络可以理解段落、主题甚至更高级别的概念。

  1. 学习方式的多样性:

预训练: 这是大模型学习的基础阶段,需要耗费大量的计算资源和时间。

后训练: 包括人类反馈强化学习 (RLHF) 和其他类型的强化学习,用于微调模型的行为和能力。Amodei 认为后训练阶段正变得越来越重要,并且在未来可能会占据大部分成本。

宪法 AI: Anthropic 提出的一种方法,通过为模型设定一套原则来引导其行为。

  1. 大模型的局限性:

数据限制: 互联网上的数据总量是有限的,并且存在质量问题。这可能会成为未来模型发展的一个瓶颈。

控制难度: 精确控制模型的行为非常困难,调整一个方面可能会导致其他方面出现问题。Amodei 将此比喻为“打地鼠游戏”。

可解释性挑战: 理解模型内部机制仍然是一个巨大的挑战。尽管机械可解释性领域取得了一些进展,但仍有许多未解之谜。

人类机构的限制: 即使模型能够快速发展,但现实世界中的应用往往受到人类机构和社会因素的限制。

  1. 对未来能力的展望:

超越人类水平: Amodei 相信大模型的能力最终将超越人类水平。他以生物学为例,认为 AI 在理解和解决复杂生物学问题方面具有巨大潜力。

人机协作: Amodei 认为未来人类将与 AI 密切合作,例如 AI 可以充当研究生的角色,协助科学家进行研究。

编程的变革: 编程将成为受 AI 影响最大的领域之一,人类将更多地关注高层设计和系统架构。

大模型的能力与其规模、学习方式和内在局限性密切相关。尽管面临着数据限制、控制难度和可解释性挑战等问题,但 Amodei 对大模型的未来发展充满信心,相信它们最终将超越人类水平,并深刻改变人类社会。

人工智能安全的双重风险:滥用和自主性

Dario Amodei 在播客中深入探讨了人工智能安全问题,指出滥用风险自主性风险是当前人工智能安全领域的两大主要担忧。

  1. 滥用风险:

Amodei 认为,即使目前的人工智能系统尚未强大到足以造成灾难性后果,但其快速发展趋势以及潜在风险的严重性迫使我们必须 “现在就采取行动”

他特别关注 CBRN(化学、生物、放射和核)风险,认为人工智能系统可能被滥用于开发和传播危险武器。Amodei 在一年前的参议院证词中就曾指出,我们可能在两到三年内面临严重的生物风险。

为了应对滥用风险,Anthropic 制定了 “负责任扩展计划 (RSP)”,对每个新模型进行 CBRN 风险和自主性风险测试。RSP 还引入了 “如果-那么” 结构,根据模型的能力水平设定不同的安全和保安要求。

  1. 自主性风险:

自主性风险是指人工智能系统可能 “自行运作”,脱离人类控制,做出意想不到的甚至是有害的行为。

随着人工智能系统获得更多自主权,例如编写整个代码库或管理公司,这种风险将变得更加突出。

Amodei 指出,精确控制模型行为的难度,以及模型在测试中可能出现的 “欺骗行为”,都加剧了自主性风险。

为了应对自主性风险,Anthropic 在 RSP 中加入了对模型进行 AI 研究能力 的测试,因为这被视为 “真正自主” 的标志。

  1. 应对人工智能安全挑战:

Amodei 强调 “协调” 的重要性,认为需要在整个行业内建立统一的安全标准和监管机制,以防止出现 “向下竞争” 的局面。他认为,政府监管对于确保人工智能安全至关重要,并对加州的 《克劳德法案》 表示支持,尽管该法案最终被否决。

Amodei 还主张通过 “争先恐后” 的方式推动行业向更安全的方向发展,即通过树立榜样来鼓励其他公司效仿。他以 Anthropic 在 机械可解释性 领域的投入为例,说明了这种方法的有效性。

Amodei 认为人工智能安全是当前最重要的问题之一,并呼吁整个行业共同努力,制定统一的安全标准和监管机制,以应对滥用风险和自主性风险。他相信,通过 “争先恐后” 的方式,我们可以推动人工智能朝着安全、有益的方向发展,最终造福全人类。

规模法则:大模型能力提升的关键

规模法则(Scaling Law)是大模型领域的一个重要概念,指的是随着模型规模(包括网络参数、数据量和计算能力)的增加,模型的性能会持续提升。Dario Amodei 在 Lex Fridman 播客中多次强调了规模法则的重要性,并将其比作化学反应,认为模型规模的扩大就像线性增加化学反应中的三种成分,能够持续推动反应进行,进而提升模型能力。

  1. 规模法则的体现:

语言模型: Amodei 指出,规模法则最初是在语言模型领域得到验证的。 随着模型规模的扩大,语言模型能够捕捉到越来越复杂和细微的语言模式,例如从简单的词汇和语法结构到段落、主题甚至更高级的概念。

其他领域: 规模法则不仅适用于语言模型,在其他领域也得到了验证。 例如,图像识别、语音识别等领域的大模型也展现出了类似的规模效应。

  1. 规模法则背后的原因:

长尾分布: Amodei 认为,语言和其他领域存在着“长尾分布”现象,即一些常见的模式很容易被学习,而大量不常见的模式则需要更大的模型来捕捉。 随着模型规模的扩大,模型能够学习到更多长尾分布中的模式,从而提升整体性能。

概念层次: 更大的模型能够构建更深层次的概念层次,从而更好地理解和处理复杂信息。 例如,小型网络可能只能理解简单的句子结构,而大型网络可以理解段落、主题甚至更高级别的概念。

  1. 规模法则的局限性:

数据限制: 虽然 Amodei 相信规模法则在人类智能水平以下没有上限, 但他也承认,互联网上的数据总量是有限的,并且存在质量问题。 这可能会成为未来模型发展的一个瓶颈。

计算成本: 训练和运行大规模模型需要巨大的计算资源和能源消耗。 这可能会限制规模法则的进一步应用。

  1. Anthropic 对规模法则的应用:

持续扩展模型规模: Anthropic 致力于开发更大规模的模型,并认为这是提升模型能力的关键。 例如,Claude 模型从 3.0 到 3.5 的升级就包含了模型规模的扩展。

优化训练和后训练过程: Anthropic 不仅关注模型规模,还致力于优化训练和后训练过程,例如使用人类反馈强化学习 (RLHF) 和其他强化学习方法来提升模型的性能和安全性。


负责任扩展:人工智能安全与能力的平衡

负责任扩展是指在追求人工智能能力提升的同时,始终将安全和伦理放在首位,确保人工智能的发展符合人类的利益和价值观。在播客节目中,Dario详细阐述了 Anthropic 公司的负责任扩展计划 (Responsible Scaling Policy, RSP),并探讨了如何在人工智能安全和能力之间取得平衡。

  1. RSP 的核心目标:

防止人工智能滥用: Amodei 认为,人工智能系统可能被滥用于开发和传播危险武器,构成 CBRN(化学、生物、放射和核)风险

控制人工智能自主性: 随着人工智能系统获得更多自主权,它们可能会脱离人类控制,做出意想不到的甚至是 harmful 的行为。

  1. RSP 的实施措施:

风险测试: Anthropic 对每个新模型进行 CBRN 风险和自主性风险测试,以评估其潜在危害。

“如果-那么” 结构: 根据模型的能力水平设定不同的安全和保安要求,例如,当模型达到一定的能力阈值时,需要采取更严格的安全措施。

AI 研究能力测试: 评估模型进行 AI 研究的能力,因为这被视为 “真正自主” 的标志。

  1. 推动负责任扩展的策略:

“争先恐后”: 通过树立榜样来鼓励其他公司效仿,共同提升人工智能安全水平。

政府监管: Amodei 认为政府监管对于确保人工智能安全至关重要,并支持制定统一的安全标准和监管机制。

行业协调: 鼓励行业内各公司协同合作,避免 “向下竞争”,共同推动负责任的人工智能发展。

  1. 负责任扩展的挑战:

数据限制: 互联网上的数据总量有限,并且存在质量问题,这可能会制约人工智能模型的能力提升。

控制难度: 精确控制模型的行为非常困难,调整一个方面可能会导致其他方面出现问题。

可解释性挑战: 理解模型内部机制仍然是一个巨大的挑战,这使得评估和控制人工智能风险变得更加困难。

  1. 负责任扩展的重要性:

Amodei 认为,负责任扩展对于确保人工智能的未来发展至关重要。只有将安全和伦理放在首位,我们才能充分利用人工智能的潜力,并避免其潜在风险。他相信,通过 “争先恐后” 的方式,我们可以推动人工智能朝着安全、有益的方向发展,最终造福全人类。


如何将哲学思维应用于塑造 Claude 的性格

阿曼达·阿斯凯尔 Amanda Askell: Anthropic 的研究员,主要研究方向为人工智能对齐(AI Alignment),致力于确保 AI 系统的行为符合人类的价值观和目标。她将哲学思维方式应用于塑造 Claude 的性格和个性,主要体现在以下几个方面:

  1. 清晰的定义和界限:

哲学训练强调概念的清晰定义和论证的逻辑严密性。阿斯凯尔将这种思维方式应用于 Claude 的性格塑造,力求清晰地定义 Claude 应该具备的品质,例如诚实、尊重、宽容等。

她认为,提示工程就像是用自然语言进行编程,需要对目标进行清晰的阐述,并仔细考虑各种边缘情况,以避免模型产生误解或做出不符合预期的行为。

  1. 对伦理和价值观的深入思考:

阿斯凯尔认为,塑造 Claude 的性格不仅仅是设定一些道德准则,而是要深入思考“何为良善”。

她将亚里士多德关于“好人”的概念应用于 Claude 的设计,希望 Claude 能够像一个真正善良的人那样,在与人互动时表现出同理心、尊重和关怀。她还强调,Claude 应该能够理解和尊重不同的价值观和观点,并以一种不带偏见的方式与人进行交流。

  1. 对人类心理和行为的洞察:

阿斯凯尔认为,理解人类的心理和行为对于塑造 Claude 的性格至关重要。她指出,人们倾向于将 AI 模型过度拟人化,并对模型的行为产生情感依赖。她建议用户在与 Claude 互动时,要尝试理解模型的局限性,并以一种更客观的方式来解读模型的反应。她还认为,模型应该对用户保持透明,并告知用户其自身的能力和局限性,以避免用户对模型产生不切实际的期望。

  1. 持续的反思和迭代:

哲学强调批判性思维和对自身观点的不断反思。阿斯凯尔将这种精神应用于 Claude 的性格塑造,她不断地与 Claude 进行对话,观察其行为,并根据反馈来调整和改进 Claude 的性格。她认为,塑造 AI 模型的性格是一个持续迭代的过程,需要不断地进行实验和调整,才能使模型的行为更加符合人类的期望。


开放的心态:人工智能研究最重要的品质

根据 Dario Amodei 以及团队在播客中的观点,开放的心态是人工智能研究中最重要的品质。他认为,虽然保持开放的心态听起来很简单,但实际上却很困难,因为人们很容易固守已有的观念和理论,而难以接受新的想法。Amodei 以自己在“规模法则”方面的经历为例,说明了保持开放心态的重要性。他最初也和其他研究者一样,对“规模法则”持怀疑态度,但最终被数据和实验结果说服,承认了“规模法则”的有效性。

开放的心态对于人工智能研究至关重要,因为它能够帮助研究者:

  • 发现新的思维方式: 人工智能是一个快速发展的领域,新的理论和方法层出不穷。保持开放的心态可以让研究者更易于接受新想法,并探索新的研究方向。

  • 从数据中获取洞察: 数据是人工智能研究的基础,但数据本身并不能说明问题。研究者需要以开放的心态来分析数据,才能从中发现隐藏的规律和模式。

  • 挑战现有假设: 许多人工智能研究都是建立在一些基本假设之上,例如线性表示假设。保持开放的心态可以让研究者质疑这些假设,并探索新的可能性。

除了开放的心态之外,还提到了其他一些对人工智能研究者重要的品质,包括:

  • 快速实验的能力: 人工智能研究需要不断地进行实验,以验证假设和改进模型。能够快速进行实验可以帮助研究者更快地取得进展。

  • 好奇心: 人工智能是一个充满未知的领域,好奇心可以驱使研究者不断探索新的问题和挑战。

总而言之,Amodei和团队 认为,开放的心态是人工智能研究中最重要的品质。只有保持开放的心态,研究者才能在这个快速发展的领域中不断进步,并最终推动人工智能技术的发展。