前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

大模型周报将从【企业动态】【技术前瞻】【观点】三部分,带你快速跟进大模型行业热门动态。

企业动态

OpenAI 下一款旗舰模型 Orion 将于 12 月前发布

OpenAI 计划在 12 月之前发布下一款旗舰模型 Orion。据悉,与 GPT-4o 和 o1 的发布不同,Orion 最初不会通过 ChatGPT 广泛发布。据消息人士称,OpenAI 计划首先向与其密切合作的公司授予访问权限,以便他们构建自己的产品和功能。虽然 Orion 在 OpenAI 内部被视为 GPT-4 的后续版本,但目前尚不清楚是否会对外称其为 GPT-5。

OpenAI 提出简化一致性模型 sCM

扩散模型在生成逼真图像、三维模型、音频和视频方面取得了显著进步,但它们的采样速度却很慢。日前,OpenAI 提出了一种称为 sCM 的新方法,它简化了连续时间一致性模型的理论表述,能够稳定和扩展大规模数据集的训练。这种方法实现了与领先的扩散模型相当的样品质量,同时仅使用两个采样步骤,从而实现 ~50 倍的 wall-clock 时间加速。

OpenAI 聘请前 Uber 高管担任首席合规官

OpenAI 已聘请 Uber 前高管 Scott Schools 担任其首任首席合规官,以加强这家初创公司适应全球新兴人工智能法规的能力。Schools 此前担任 Uber 首席伦理与合规官,Uber 也曾面对复杂的监管环境。在此之前,Schools 曾在美国司法部担任副检察长助理。

Ideogram 推出 AI 创意工具 Canvas

Ideogram 推出了一个用于组织、生成、编辑和组合图像的创意工具——Canvas。用户可以上传自己的图像或在 Canvas 中生成新图像,然后使用 Magic Fill 和 Extend 工具无缝编辑、扩展或组合。Canvas 非常适合图形设计,提供高级文本渲染和精确的 prompt adherence,通过灵活的迭代过程将愿景变为现实。

Rhymes AI 推出开源视频生成模型 Allegro

Rhymes AI 推出了开源视频生成模型 Allegro,其可将简单的文本提示以每秒 15 帧和 720p 分辨率生成高质量的 6 秒视频,高效地创建人物细节特写、动物在各种环境中的动作等各种电影主题。

Genmo 推出开源视频生成模型 Mochi 1

Genmo 推出了一款开源 SOTA 视频生成模型 Mochi 1 Preview,其在运动质量方面表现出显着改善,并且具有极强的 prompt adherence,极大地缩小了闭源和开源视频生成系统之间的差距。Mochi 1 Preview 根据 Apache 2.0 许可证获得许可,可免费用于个人和商业用途。

Runway 推出 Act-One

Runway 推出了 Act-One,这是一款用于在 Gen-3 Alpha 中生成富有表现力的角色表演的新工具。Act-One 可以使用视频和语音表演作为输入来创建引人注目的动画,将生成模型用于富有表现力的实时动作和动画内容。

智谱推出情感语音模型 GLM-4-Voice

在 CNCC2024 大会上,智谱推出了他们在多模态领域的最新成果——。据介绍,GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断。同时,GLM-4-Voice 发布即开源,这也是智谱首个开源的端到端多模态模型。除了同步开源,GLM-4-Voice 也即刻上线清言 app,这让清言成为国内首个具有端到端高级语音(超拟人语音)能力的大模型产品。

智谱推出 AutoGLM:AI 的「phone use」来了

如果说「」开启了人机交互的新范式,那么「」则更进一步,解锁更多应用的可能性。在 CNCC2024 大会上,智谱基于在语言模型、多模态模型和工具使用方面的努力和研究成果,推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:在微信上「给老板的朋友圈点赞并写评论」,在淘宝上「购买某一款历史订单产品」,以及在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖......

Anthropic:大模型可以自主使用电脑了

日前,Anthropic 推出了一个公开测试的功能「computer use」。据介绍,最新版本的 Claude 3.5 Sonnet 在通过适当的软件设置运行后,可以按照用户的指令在电脑屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与电脑进行交互的方式。

Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

日前,Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 与前代产品相比有了全面的改进,尤其是在编码方面有了显著的提高。Claude 3.5 Haiku 在许多评估中的性能与 Claude 3 Opus(他们之前最大的机型)不相上下,而成本和速度却与上一代 Haiku 相当。

Claude 能够编写和运行 JavaScript 代码了

Anthropic 为 Claude 推出了分析工具,使其能够编写和运行 JavaScript 代码。该工具如同内置的代码沙箱,使 Claude 可以执行复杂的数学运算、分析数据,并优化回答流程,目前在功能预览中对所有 Claude 用户开放。

Meta 推出首款轻量级量化 Llama 模型

Meta 推出了首款轻量级量化 Llama 模型,其性能足以在许多主流移动设备上运行。作为首批量化模型,这些指令微调模型在质量和安全性上保持与原始 1B 和 3B 模型相同的标准,速度提升 2-4 倍,模型大小减少 56%,内存使用降低 41%。该模型可通过 PyTorch 的 ExecuTorch 框架进行推理,且已在与高通和联发科等合作伙伴的协作下在 Arm CPU 上推出。

Stability AI 推出 Stable Diffusion 3.5

Stability AI 推出了 Stable Diffusion 3.5,这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,以及一周后将发布的 Stable Diffusion 3.5 Medium。据介绍,这些模型的大小是高度可定制的,能在消费级硬件上运行。

前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

Cohere 推出多模态 AI 搜索模型 Embed3

Cohere 推出了 SOTA 多模态 AI 搜索模型 Embed 3,为图像数据释放真正的商业价值。企业现在可以建立系统,准确、快速地搜索重要的多模态资产,如复杂的报告、产品目录和设计文件,从而提高员工的工作效率。

Perplexity AI 在新一轮融资中寻求约 90 亿美元的估值

据 CNBC 证实,AI 初创公司 Perplexity AI 已启动新一轮融资谈判,寻求将其估值提高一倍以上——约 90 亿美元。Perplexity AI 的 AI 搜索引擎正试图削弱 Google 的主导地位。近期,Perplexity 深陷争议,面临着来自《纽约时报》等媒体的一系列剽窃指控,声称 Perplexity“抄袭”了他们的内容,Perplexity 否认了这些指控。

高通、谷歌联手帮助汽车制造商开发 AI 语音助手

日前,高通宣布与谷歌合作,为汽车制造商提供芯片和软件组合,两者共同研发的新版 Android Automotive OS 将适配高通芯片,支持汽车制造商开发不依赖手机的语音助手。当天,高通还推出了两款新芯片:用于仪表盘的 Snapdragon Cockpit Elite 和支持自动驾驶的 Snapdragon Ride Elite,奔驰计划在未来车型中使用该芯片。

英伟达 Blackwell AI 芯片的设计缺陷已修复

英伟达首席执行官黄仁勋表示,在台积电的帮助下,其最新的 Blackwell AI 芯片的一个影响生产的设计缺陷已得到修复。“虽然它能正常使用,但设计缺陷导致成品率低。这 100% 是英伟达的错。”

Canva 拥有闪亮的全新文字图片生成器

Canva 在其基于 Web 的设计平台中添加了一系列新的 AI 功能,包括用于生成文本和视频效果的更新,以及文本到图像应用程序“Dream Lab”,后者允许用户从各种样式的描述中生成图像,例如“3D 渲染”和“插图”。Canva 还对“Magic”AI 工具套件进行了更新,比如提高准确性和 Magic Write 文本生成功能的一键式自动完成命令。

陷入困境,Ai Pin 已降价 200 美元

Humane 宣布将其旗舰产品 Ai Pin 降价 200 美元。据报道,这家由两名前苹果高管创立的初创公司一直在努力销售 Ai Pin。该产品于 4 月推出,起初售价 700 美元,但由于评价不佳、销售情况不佳,自 5 月份开始便考虑降价出售。据报道,截至 8 月份,Ai Pin 的退货量已开始超过销售量,市面上只剩下大约 7000 到 8000 台 Ai Pin。

荣耀发布 AI 操作系统 MagicOS 9.0

据《科创板日报》报道,荣耀 MagicOS 9.0 日前在国内发布,是行业首个搭载智能体的个人化全场景 AI 操作系统。荣耀 CEO 赵明表示,目前在大模型落地方面,不同设备采用灵活部署。其中,1500 万参数的语言大模型、500 万参数图像大模型实现全系列端侧部署,10 亿参数的多模态大模型、30 亿参数的大语言模型、4000 万参数的图像大模型在中高端系列端侧部署。

高通推骁龙 8 至尊版:将适配 GLM-4V 端侧视觉大模型

据财联社报道,高通发布的骁龙8至尊版,采用第二代定制 Oryon CPU 和增强 Hexagon NPU,并宣布与智谱合作将 GLM-4V 端侧视觉大模型深度适配骁龙8至尊版。据悉,未来几周内,包括华硕、荣耀、OPPO、vivo、三星、小米和中兴等厂商将会在几周内陆续发布搭载骁龙8至尊版的终端。

波形智能确认被 OPPO 收购

此前有消息称大模型创业公司波形智能将被 OPPO 收购,波形智能相关人士已向《科创板日报》记者确认此事,并表示公司和产品均持续运营,其他不方便透露。

技术前瞻

清华、中科院、智谱团队提出 LongRAG

长上下文问答(LCQA)是一项具有挑战性的任务,旨在对长上下文文档进行推理,从而得出问题的准确答案。现有的用于 LCQA 的长上下文大语言模型(LLM)往往难以解决“lost in the middle”的问题。检索增强生成(RAG)通过提供外部事实证据来缓解这一问题。然而,它的分块策略会破坏全局性的长上下文信息,而且其在长上下文中的低质量检索会由于大量噪音而阻碍 LLM 识别有效的事实细节。

为此,来自清华大学、中国科学院和智谱的研究团队提出了一种通用的、双视角的、鲁棒的基于 LLM 的 RAG 系统范式——LongRAG,在 LCQA 任务中增强 RAG 对复杂长上下文知识(即全局信息和事实细节)的理解。

他们将 LongRAG 设计为即插即用范例,便于适应各种领域和 LLM。在三个多跳数据集上进行的广泛实验表明,LongRAG 的性能明显优于长上下文 LLM(提高了 6.94%)、高级 RAG(提高了 6.16%)和 Vanilla RAG(提高了 17.25%)。此外,他们还进行了定量消融研究和多维分析,凸显了系统组件和微调策略的有效性。

前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

谷歌推出生成式无限游戏 Unbounded

来自谷歌和北卡罗来纳大学的研究团队提出了“生成式无限游戏”(generative infinite game)的概念,即通过使用生成式模型,超越传统的有限、硬编码系统界限的视频游戏。

受 James P. Carse 区分有限游戏和无限游戏的启发,他们利用生成式 AI 创建了 Unbounded:一款完全由生成式模型封装的角色生活模拟游戏。Unbounded 从沙盘生活模拟中汲取灵感,可以让玩家在虚拟世界中通过喂养、玩耍和引导自主虚拟角色与之互动——由 LLM 生成开放式机制,其中一些机制可能是“涌现”的。

为了开发 Unbounded,他们提出了:(1)一个专门的、经过提炼的大语言模型(LLM),可实时动态生成游戏机制、叙事和角色互动;(2)一个用于视觉模型的新型动态区域图像提示适配器(IP-Adapter),可确保在多个环境中一致而灵活地生成角色的视觉效果。

他们通过定性和定量分析对系统进行了评估,结果表明,与传统的相关方法相比,该系统在角色生活模拟、用户指令遵循、叙事连贯性以及角色和环境的视觉一致性方面都有显著改进。

前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

微软提出新型注意力机制 SeerAttention

注意力的二次复杂度限制了 LLM 的效率和可扩展性,尤其是对于那些具有长上下文窗口的 LLM。解决这一限制的一个可行方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案无法完全捕捉到基于语言的任务中注意力稀疏性的动态本质。

来自微软的研究团队及其合作者认为,注意力稀疏性应该是学习出来的,而不是预先定义的。为此,他们设计了一种新的注意力机制——SeerAttention,它通过一个可学习的门,自适应地选择注意力地图中的重要区块,并将其余区块视为稀疏区块,从而增强了传统注意力。这种块级稀疏性有效地平衡了准确性和速度。为了高效地学习门控网络,他们开发了一种定制的 FlashAttention 实现方法,它能以最小的开销提取块级注意力图的基本事实。SeerAttention 不仅适用于后期训练,而且在长期上下文微调方面表现出色。

结果表明,在后训练阶段,SeerAttention 明显优于基于静态或启发式的稀疏注意力 SOTA 方法,同时在适应不同上下文长度和稀疏比率方面也更加灵活多变。在使用 YaRN 进行长上下文微调时,SeerAttention 可以在 32k 上下文长度下达到 90% 的稀疏率,同时将困惑度损失降到最低,与 FlashAttention-2 相比,速度提高了 5.67 倍。

前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

苹果提出模型更新训练策略 MUSCLE

大语言模型(LLM)会通过定期更新来提高性能,通常是通过更改数据或架构来实现。在更新过程中,开发人员通常会优先考虑提高整体性能指标,而较少关注保持与早期模型版本的兼容性。从一个模型版本到下一个模型版本的实例级性能下降(实例回归,instance regression)会干扰用户对特定语言模型能力的心智模型。用户不得不在每次更新时调整他们的心智模型,这可能会导致不满,尤其是当新模型在已知用例中的性能与之前的版本相比有所下降时(模型更新回归,model update regression)。

苹果团队发现,当更新预训练的 LLM 基本模型时,经过微调的面向用户的下游任务适配器会出现负翻转——以前正确的实例现在预测错误。他们观察到,即使下游任务训练程序保持一致,在不同的任务和模型集上的不同模型版本之间也会出现模型更新回归。

他们论证了在更新过程中保持模型更新兼容性的重要性,并提出了专为生成任务设计的评估指标,同时也适用于判别任务。他们提出了一种训练策略,以尽量减少模型更新中的实例回归程度,其中包括训练一种兼容性适配器,它可以增强任务微调语言模型。结果表明,在使用该方法将 Llama 1 更新为 Llama 2 时,负翻转率最高可减少 40%。

前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门

反击来了!新工具让生成式 AI 无法学习有版权歌曲

田纳西大学诺克斯维尔分校助理教授刘健、里海大学助理教授孙力超等人合作开发了首个旨在通过让生成式 AI 模型无法学习音乐来保护音乐家知识产权的防御框架 HarmonyCloak。通过在音乐中嵌入不易察觉、误差最小的噪音,HarmonyCloak 能有效防止 AI 系统提取有意义的模式,同时保留音乐质量。

观点

前 OpenAI 研究员:我必须离开

Suchir Balaji 在 OpenAI 担任了近四年的 AI 研究员,期间帮助收集和组织了大量互联网数据来训练 ChatGPT。当时,他没有仔细考虑 OpenAI 是否有合法权利以这种方式构建其产品,但 ChatGPT 发布后,他对公司正在做什么进行了更深入的思考,认为 OpenAI 使用受版权保护的数据违反了法律且 ChatGPT 正在破坏互联网。今年 8 月,他离开了 OpenAI,因为他不再想为那些他认为会给社会带来更多危害而非好处的技术做贡献。“如果你相信我所相信的,你就必须离开公司。”

OpenAI 研究科学家:20 秒的思考价值 10万倍的数据

日前,OpenAI 的研究科学家 Noam Brown 在 TED AI 大会上谈到了 o1 模型及其通过推理、高级编码和科学研究改变行业的潜力。他指出,虽然扩大模型规模一直是 AI 发展的关键因素,但现在需要转变范式,AI 需要超越纯粹的数据处理,进入“system 2 思维”,这是一种更慢、更深思熟虑的推理形式,反映了人类处理复杂问题的方式。在他看来,20 秒钟的思考价值 10 万倍的数据。

又一 OpenAI 高管辞职:没有公司为 AGI 做好准备

日前,OpenAI 的 AGI Readiness 团队高级顾问 Miles Brundage 在离职时发出了严厉的警告:没有人为通用人工智能(AGI)做好准备,包括 OpenAI 本身。“OpenAI 或任何其他前沿实验室都没有为 AGI 做好准备,世界也没有准备好”,Brundage 写道。他的离职标志着 OpenAI 安全团队一系列离职事件的最新一次。此前Jan Leike 在声称“安全文化......已被闪亮的产品所取代”之后离开了 OpenAI,Ilya Sutskever 也在离开 OpenAI 后创办了自己的 AI 初创公司,专注于安全的 AI 开发。

内部员工:苹果 AI 落后行业巨头超两年

知名科技记者 Mark Gurman 称,一些苹果员工认为该公司在人工智能发展方面大约落后两年。Gurman 表示,苹果的内部研究表明,ChatGPT 的准确性比苹果语音助手 Siri 高出约 25%,且可以回答更多问题。此外,Gurman 也谈道,到 2026 年,Apple Intelligence 将在每个带屏幕的苹果设备上运行,而苹果在赶超竞争对手时,拥有一个很大的优势——能够迅速将新功能推送至海量设备。

DeepMind 创始人:今年的诺贝尔奖,就像是 AI 的分水岭

日前,英国《金融时报》(FT)刊登了新晋诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 接受科技记者 Madhumita Murgia 的专访。在访谈中,Hassabis 深度探讨了 ,并强调了在推进 AGI 过程中对系统理解、安全性及社会价值观讨论的重要性。“没人知道[诺贝尔]委员会在想什么...... 这感觉像是 AI 的一个分水岭,人们认识到它实际上已经足够成熟,可以帮助科学发现。”

a16z 创始合伙人:当前的 AI 发展就像“卖大米”

a16z 创世合伙人 Marc Andreessen 在谈到大语言模型 (LLM) 发展时表示:“也许所有这些公司都在恶性竞争(a race to the bottom)”。他还将当前的 AI 发展比作为“卖大米”,认为产品差异化不大,“事实证明,任何人都可以做一个 LLM。”

上万名艺术家警告:决不允许 AI 侵犯版权

日前,包括 ABBA 成员 Björn Ulvaeus、演员 Julianne Moore 和 Radiohead 主唱 Thom Yorke 在内的 10500 名创意产业人士签署了一份声明,警告 AI 公司未经许可使用他们的作品是对艺术家生计的“重大且不公正的威胁”,决不允许。声明指出,未授权使用创意作品来训练生成式 AI,是侵犯版权的行为,并正在引发创意人士与科技公司之间的法律争议。