建模渲染 OpenAI最大竞争对手Anthropic发布新模型
实习生 王春 澎湃新闻记者 喻琰建模渲染
能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。
10月22日,美国人工智能初创公司Anthropic宣布推出升级版的Claude 3.5 Sonnet模型,升级后的Claude 3.5大语言模型,Anthropic声称会达到“仿佛一个人在电脑前工作”的效果。
它能够通过新的“计算机使用”(Computer Use)API,与任何桌面应用程序交互,模仿键盘输入、鼠标点击和移动等操作。Anthropic将其称为“下一代AI自我学习算法”,并相信这项技术有望在未来自动化经济中占有很大一部分。
演示视频里,研究人员向Claude 3.5 Sonnet提出了一个实际应用场(02:01)
Anthropic在官方博客中详细介绍了这项新功能的研发过程。他们训练Claude能够“看到”屏幕上发生的事情,然后使用可用的软件工具来执行任务。通过新的API,Claude可以计算需要移动鼠标的像素数,准确地点击屏幕上的正确位置,完成用户指令。
“我们并非为Claude设计特定的工具来完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。”Anthropic表示。
为了实现该功能,Anthropic在工具使用和多模态方面做了很多前期工作。操作计算机需要理解和解释图像的能力——即屏幕截图。同时,还需要推理何时以及如何执行特定操作。通过训练建模渲染,Claude学会了将用户的文本指令转化为一系列逻辑步骤,然后在电脑上执行。
例如,它可以帮助用户找到去金门大桥观看日出的最佳地点,查看驾车时间和日出时间,并在日历中安排活动;还可以自动编写网站代码,修复编程错误,甚至在用户构建应用程序时实时评估其性能。
尽管市场上已有其他能够自动化桌面任务的AI代理,如Relay、Induced AI和Automat,但Anthropic声称,新的Claude 3.5 Sonnet模型在性能和稳健性上领先于其他竞争对手。根据SWE-bench Verified基准测试,Claude 3.5 Sonnet在编码任务上得分从33.4%提升至49.0%,超过了所有公开可用的模型,包括OpenAI的旗舰模型o1-preview。
此外,Claude 3.5 Sonnet在TAU-bench测试中也表现出色,电商美工外包网在零售领域的得分从62.6%提高到69.2%,在更具挑战性的航空领域则从36.0%跃升至46.0%。即使没有经过专门的训练,升级后的Claude 3.5 Sonnet在遇到障碍时还能自我纠错和重试,并能完成需要数十甚至数百步的目标。
抠图不过,Claude的计算机使用功能目前仍有一定局限。例如,它在滚动、拖动、缩放等基本操作上还有困难,由于其通过截图并拼接的方式“观察”屏幕,可能会错过短暂出现的动作或通知。
安全问题也是一大关注点。此前的研究表明,即使是无法使用桌面应用程序的模型,如OpenAI的GPT-4o,在遭受“越狱”攻击时,也可能执行有害的多步骤行为,例如从暗网购买假护照。
Anthropic表示,他们采取了多项措施来防止滥用,例如不在训练中使用用户的截图和提示词,防止模型在训练期间访问网络,并开发了分类器,引导Claude避免高风险的行为,如在社交媒体上发帖、创建账户以及与政府网站交互。
“没有万无一失的方法,我们将持续评估和改进安全措施,以平衡Claude的能力和负责任的使用。”Anthropic强调。据悉,多家知名公司已经开始探索Claude的新功能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。
Anthropic由前OpenAI成员Dario Amodei和Daniela Amodei创立建模渲染,旨在开发安全、可靠的AI模型,其Claude系列大语言模型被广泛认为是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争对手。此次Claude 3.5 Sonnet在关键性能指标上实现领先,展示了Anthropic在人工智能领域同样具有领先实力。
特别声明:以上内容(如有图片或视频亦包括在内)来源于网络,不代表本网站立场。本网站仅提供信息存储服务。如因作品内容、版权和其他问题需要同我们联系的,请联系我们及时处理。联系方式:451255985@qq.com,进行删除。