Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

📅 2026-05-25 12:01  |  ✍️ xibeilang  |  💬 暂无评论

📅 2026年05月25日 · 来源:量子位 · 🐺 狼眼新闻

2026年5月25日,量子位报道SaaS-Bench测试结果,Claude模型在Computer-Use任务中通过率不足4%。该测试模拟全自动办公场景,要求AI完成复杂操作如邮件处理和数据分析。结果显示,AI在理解上下文和错误恢复上表现不佳。专家指出,全自动办公幻想被打破,AI仍需人类监督。开发者表示,将改进模型鲁棒性。网友调侃,“AI办公梦碎,打工人暂时安全”。

🐺 狼眼洞察

AI办公尚远,人机协作才是现实。

数据来源:新华网、路透社、法新社、BBC中文、澎湃新闻等综合整理
西北狼·狼眼世界 · 狼眼观天下,坚韧铸未来

🏷️ 标签:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注