清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型｜大模型日报

⋅ 2024-12-09 18:04:06 ⋅ 10 阅读 ⋅ 探索

今日值得关注的大模型前沿论文

SwiftEdit：50 倍速文本引导图像编辑
清华团队提出大模型“密度定律”
足球领域首个视觉语言基础模型
Aguvis：首个完全自主的纯视觉 GUI agent
Google DeepMind：利用运动轨迹控制视频生成
大模型数学新基准：成功率最高 2%
Meta 推出「高效追踪一切」模型
SOLAMI：首个端到端社交视觉-语言-动作建模框架
RevThink：使用逆向思维增强 LLM 推理

想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。

SwiftEdit：50 倍速文本引导图像编辑

文本引导图像编辑技术使用户能够通过简单的文本输入，利用基于多步扩散的文本到图像模型的广泛先验进行图像编辑。然而，这些方法往往无法满足现实世界和端侧应用对速度的要求，因为涉及到昂贵的多步反演和采样过程。

为此，VinAI Research 团队推出了 SwiftEdit，这是一种简单而高效的编辑工具，可实现即时文本引导的图像编辑（0.23 秒）。SwiftEdit 的先进之处在于它的两个新贡献：一步反演框架，通过反演实现一步图像重建；掩码引导编辑技术，利用注意力重缩放机制执行局部图像编辑。

大量实验证明了 SwiftEdit 的有效性和效率。特别是，SwiftEdit 可实现即时文本引导的图像编辑，其速度比以往的多步骤方法至少快 50 倍，同时在编辑结果方面具有竞争力。

论文链接：

https://arxiv.org/abs/2412.04301

项目地址：

https://swift-edit.github.io/

清华团队提出大模型“密度定律”

大语言模型（LLM）的性能可随着模型规模的扩大而提高。然而，这种扩展给训练和推理效率带来了巨大挑战，特别是在资源有限的环境中部署 LLM 时，这种扩展趋势正变得越来越不可持续。

在这项工作中，来自清华大学和面壁智能的研究团队提出了“容量密度”（capacity density）的概念，作为评估不同规模 LLM 质量的新指标，并从有效性和效率两个方面描述了 LLM 的发展趋势。

为了计算给定目标 LLM 的容量密度，他们首先引入了一组参考模型，并根据这些参考模型的参数大小制定了一个 scaling law 来预测其下游性能。然后，他们将目标 LLM 的有效参数大小定义为参考模型实现同等性能所需的参数大小，并将容量密度正式定义为目标 LLM 的有效参数大小与实际参数大小之比。容量密度为评估模型的有效性和效率提供了一个统一的框架。

他们对近期开源基础 LLM 的进一步分析揭示了“密度定律”（densing law），即 LLM 的容量密度随着时间的推移呈指数增长。更具体地说，使用一些广泛使用的基准进行评估，LLM 的容量密度大约每三个月翻一番。该定律为指导未来的 LLM 开发提供了新的视角，强调了提高容量密度的重要性，从而以最小的计算开销获得更优的结果。

论文链接：

https://arxiv.org/abs/2412.04315

足球领域首个视觉语言基础模型

作为一项举世闻名的体育运动，足球吸引了全世界球迷的广泛关注。在这项工作中，来自上海交通大学的研究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。

具体来说，他们做出了以下贡献：（1）他们提出了 SoccerReplay-1988，这是迄今为止最大的多模态足球数据集，其中包括来自 1988 场完整比赛的视频和详细注释，以及一个自动注释管道；（2）他们提出了足球领域的第一个视觉语言基础模型 MatchVision，它利用足球视频中的时空信息，在各种下游任务中表现出色；（3）他们在事件分类、解说生成和多视角犯规识别方面进行了广泛的实验和消融研究。MatchVision 在所有这些方面都表现出了 SOTA。

论文链接：

https://arxiv.org/abs/2412.01820

项目地址：

https://jyrao.github.io/UniSoccer/

Aguvis：首个完全自主的纯视觉 GUI agent

图形用户界面（GUI）对人机交互至关重要，但由于视觉环境的复杂性和多变性，GUI 任务的自动化仍具有挑战性。现有的方法通常依赖于 GUI 的文本表示，这在通用性、效率和可扩展性方面带来了限制。

在这项工作中，香港大学和 Salesforce 研究团队提出了一个可在各种平台上运行的基于纯视觉的统一自主 GUI agent 框架——Aguvis。这一方法利用了基于图像的观察和自然语言对视觉元素的基础指令，并采用了一致的行动空间来确保跨平台通用性。为了解决以往工作的局限性，他们在模型中集成了明确的规划和推理功能，增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI agent 轨迹数据集，整合了多模态推理和接地（grounding），并采用了两阶段训练管道，首先侧重于一般的 GUI 接地，然后是规划和推理。

通过全面的实验，他们证明了 Aguvis 在离线和实际在线场景中都超越了之前的 SOTA 方法，据介绍，它是首个能够独立执行任务而无需与外部闭源模型协作的完全自主纯视觉 GUI agent。

论文链接：

https://arxiv.org/abs/2412.04454

项目地址：

https://aguvis-project.github.io/

Google DeepMind：利用运动轨迹控制视频生成

运动控制对于生成具有表现力和吸引力的视频内容至关重要；然而，现有的大多数视频生成模型主要依靠文本提示进行控制，难以捕捉动态动作和时间组合的细微差别。

为此，来自 Google DeepMind 的研究团队及其合作者训练了一种以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作不同的是，这种灵活的表示方法可以编码任意数量的轨迹、特定对象或全局场景运动以及时空稀疏运动；由于其灵活性，他们将这种调节方法称为运动提示（motion prompt）。虽然用户可以直接指定稀疏轨迹，但他们也展示了如何将高级用户请求转化为详细的半密集运动提示，他们将这一过程称为运动提示扩展（motion prompt expansion）。

他们通过各种应用展示了这一方法的多功能性，包括相机和物体运动控制、与图像“互动”、运动传输和图像编辑。研究结果展示了一些涌现行为，如逼真的物理现象，这表明运动提示具有探测视频模型和与未来生成世界模型交互的潜力。

论文链接：

https://arxiv.org/abs/2412.02700

项目地址：

https://motion-prompting.github.io/

大模型数学新基准：成功率最高 2%

来自 Epoch AI 的研究团队及其合作者提出了 FrontierMath，这是一个由数学专家精心设计和审核的数百个极具挑战性的原创数学问题组成的基准。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力，对于高端问题，则需要数天。FrontierMath 使用未公开的新问题和自动验证来可靠地评估模型，同时最大限度地降低数据污染的风险。目前的 SOTA 人工智能模型只解决了不到 2% 的问题，这揭示了人工智能能力与数学界实力之间的巨大差距。

论文链接：

https://arxiv.org/abs/2411.04872

Meta 推出「高效追踪一切」模型

SAM 2 已成为视频对象分割和跟踪的强大工具。SAM 2 的关键部件包括一个用于提取帧特征的大型多级图像编码器，以及一个用于存储过去帧上下文以帮助当前帧分割的存储机制。多级图像编码器和内存模块的高计算复杂度限制了其在实际任务中的应用，例如移动设备上的视频对象分割。

为了解决这一局限性，Meta 团队提出了 EfficientTAMs 模型，它是一种轻量级的轨迹信息模型，能以较低的延迟和模型大小产生高质量的结果。他们的想法基于重新审视普通、非层次化的视觉 Transformer（ViT），将其作为用于视频对象分割的图像编码器，并引入高效内存模块，从而降低帧特征提取和当前帧分割内存计算的复杂性。他们利用 Vanilla 轻量级 ViTs 和高效内存模块构建了 EfficientTAMs，并在 SA-1B 和 SA-V 数据集上对模型进行了训练，以完成视频对象分割和跟踪任务。

他们在多个视频分割基准（包括半监督 VOS 和可提示视频分割）上进行了评估，发现 EfficientTAM 与 vanilla ViT 的性能相当，在 A100 上比 SAM 2（HieraB+SAM 2）快约 2 倍，参数减少约 2.4 倍。在分割任何图像任务时，EfficientTAM 也优于原始 SAM，A100 速度提高了约 20 倍，参数减少了约 20 倍。在 iPhone 15 Pro Max 等移动设备上，EfficientTAM 能以约 10 FPS 的速度运行，以合理的质量执行视频对象分割，这凸显了小型模型在端侧视频对象分割应用中的能力。

论文链接：

https://arxiv.org/abs/2411.18933

项目地址：

https://yformer.github.io/efficient-track-anything/

SOLAMI：首个端到端社交视觉-语言-动作建模框架

人类是社会性动物。如何让 3D 自主角色具备类似的社会智能，能够感知、理解人类并与之互动，仍然是一个尚未解决的基本问题。

在这项工作中，来自商汤科技和南洋理工大学 S-Lab 的研究团队提出了首个端到端社交视觉-语言-动作（VLA）建模框架 SOLAMI，用于与 3D 自主角色进行沉浸式交互。具体来说，SOLAMI 从三个方面构建 3D 自主角色：（1）社交 VLA 架构：他们提出了一个统一的社交 VLA 框架，可根据用户的多模态输入生成多模态响应（语音和动作），从而驱动角色进行社交互动。（2）交互式多模态数据：他们推出了一个合成的多模态社交互动数据集 SynMSI，其由一个自动 pipeline 生成，仅使用现有的运动数据集，以解决数据稀缺的问题。（3）沉浸式 VR 界面：他们开发了一种 VR 界面，使用户能够身临其境地与这些由各种架构驱动的角色进行互动。

广泛的定量实验和用户研究表明，这一框架能带来更精确、更自然的角色响应（包括语音和动作），符合用户的期望，而且延迟更低。

论文链接：

https://arxiv.org/abs/2412.00174

项目地址：

https://solami-ai.github.io/

RevThink：使用逆向思维增强 LLM 推理

逆向思维在人类推理中起着至关重要的作用。人类不仅可以从问题到解决方案进行推理，还可以反向推理，即从解决方案出发，向问题方向推理。这通常可以提高整体推理性能，因为这可以检查正向思维和反向思维之间的一致性。

为了让大语言模型（LLM）能够进行逆向思维，来自北卡罗来纳大学教堂山分校和谷歌的研究团队提出了逆向增强思维（RevThink），这是一个由数据增强和学习目标组成的框架。在 RevThink 中，他们通过从教师模型中收集结构化的正向-反向推理来增强数据集，其中包括：（1）原始问题；（2）正向推理；（3）反向问题；（4）反向推理。然后，他们采用三个目标，以多任务学习的方式训练一个较小的学生模型：（a）从问题中生成前向推理，（b）从问题中生成后向问题，（c）从后向问题中生成后向推理。

在涵盖常识推理、数学推理和逻辑推理的 12 个数据集上进行的实验表明，这一方法比学生模型的零样本性能平均提高了 13.53%，比 SOTA 知识提炼基线提高了 6.84%。此外，这一方法还展示了样本效率——仅使用训练数据中 10% 的正确前向推理，它就超越了使用 10 倍前向推理训练的标准微调方法。RevThink 还表现出对分布不均的数据集的泛化能力。

论文链接：

https://arxiv.org/abs/2411.19865