Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

📅 2026-05-25 12:01 | ✍️ xibeilang | 💬 暂无评论

📅 2026年05月25日 · 来源：量子位 · 🐺 狼眼新闻

2026年5月25日，量子位报道SaaS-Bench测试结果，Claude模型在Computer-Use任务中通过率不足4%。该测试模拟全自动办公场景，要求AI完成复杂操作如邮件处理和数据分析。结果显示，AI在理解上下文和错误恢复上表现不佳。专家指出，全自动办公幻想被打破，AI仍需人类监督。开发者表示，将改进模型鲁棒性。网友调侃，“AI办公梦碎，打工人暂时安全”。