Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

⋅ 2024-11-25 16:05:35 ⋅ 阅读 ⋅ 智能

奇月发自凹非寺量子位 | 公众号 QbitAI

Claude操控电脑，究竟可以做到什么程度？

新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！

研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟宇宙”，然后，Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数：

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

甚至还可以启动自动战斗、等待战斗结束后退出，这一套组合操作简直行云流水……

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

而且注意哦，这不仅是传统游戏外挂那样的机械操作，Claude还能智能理解游戏规则和目标，根据界面上不同的任务进行调整。

这下好了，人类只能在一旁干瞪眼了。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

除了更多测试场景外，论文还提出了一个开箱即用的自动GUI框架。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

有网友看到视频后评论说：以后我去上学的时候，就可以让Claude帮我玩每日任务了。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

还可以自动完成很多办公任务

Claude Computer Use的潜能还远远没有被人类发掘——

研究团队还测试了很多日常办公场景下它的性能：

1.网页搜索

它可以在Amazon和Apple官方网站上成功完成下单购物的任务，选择颜色配置、填写地址都轻松拿捏。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2.工作流程

模型还成功完成了在Apple Music添加歌曲、编辑Excel数据、在App Store安装应用等自动任务。

虽然界面设计和跳转逻辑更加复杂，它还是能智能地理解任务的最终目标，真是一个成熟的好AI（欣慰）！

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

3..办公生产力软件

此外，它还可以在Outook中转发邮件、调整Word布局、设置PowerPoint背景设置和插入三角形形状等等，这下真的可以大大增强生产力了（AI无用论 -1）。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

4.还可以玩其他游戏

除了《崩坏：星穹铁道》，模型也可以自动玩《炉石传说》，包括创建和重命名牌组、使用英雄技能等等。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude Computer Use API + 自动化GUI框架

你可能会好奇，强如Claude Computer Use，是怎么做到自动完成任务的呢？

下面我们就一起来看看背后的框架设计——

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

具体来说，团队基于Claude Computer Use的API设计了一个自动化GUI框架，主要分为以下6个部分：

1.系统提示

Claude Computer Use的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写

块来调用这些函数，例如计算机交互、Bash Shel命令和文件编辑工具。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2.状态观察

Claude Computer Use通过实时截图观察环境，不依赖元数据或HTML。每个时间步长过后，模型都会保留历史截图，帮助生成下一步的动作。

3.推理范式

Claude Computer Use采用了一种推理-行动范式，通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的GUI环境中生成更可靠的动作。

4.工具使用

Claude Computer Use提供了三种工具：计算机工具、文本编辑器工具和Bash工具，它们可以帮助模型与计算机进行交互，执行各种任务。

5.GUI动作空间

GUI动作空间内置了所有原始的鼠标和键盘动作，如鼠标移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。

6.历史视觉上下文维护

模型在每个时间步长都会保留历史截图，以辅助动作生成过程。具体公式如下：

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

性能测试

为了更加广泛地测试Claude Computer Use和GUI框架联合后的性能效果，团队还设计了详尽的测试实验，包括

1.数据收集：实验设计包括在Windows和macOS上通过ComputerUse Out-of-the-Box平台进行评估。评估任务覆盖了广泛的应用领域，包括网页搜索、工作流程、办公生产力软件和视频游戏等。

2.样本选择：选择了20个任务，涵盖12个软件或网站，分为以下三个领域：网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表：

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

3.参数配置：系统分辦率设置为Windows的（1366,768）和macOS的（1344,756）。过程中还加入了人类评审和评估用于监控和审查过程，确保任务的顺利完成。

虽然Claude Computer Use在之前的例子中表现都非常厉害，但当网页或软件的页面过于复杂时，模型也出现了一些失败案例：

1.精细网页操作失败：在Fox Sports订阅任务中失败，错误原因主要在于模型没有正确导航到”Account”选项卡。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2.办公软件失败：在Word中更新简历模板、和在PPT中插入编号符号两个任务中失败，错误原因在于模型未能准确选择和定位文本字段。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

不过整体来说，Claude Computer Use已经很棒了，而且这功能也刚刚发布没多久，未来可期！

团队还公开了所有测试用例的具体信息，感兴趣的小伙伴可以点GitHub项目链接查看更多消息～

Claude老师，以后我的PPT和Steam就拜托你了（bushi）

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

参考资料：
https://arxiv.org/pdf/2411.10323
https://github.com/showlab/computer_use_ootb

- THE END -

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-11-25 16:05:35

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/zhineng/35675.html

上海汽车博物馆收录极氪MIX

评论（共条评论，人围观）

微信二维码

微信二维码

支付宝二维码