Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想
📅 2026-05-25 12:01 | ✍️ xibeilang | 💬 暂无评论
📅 2026年05月25日 · 来源:量子位 · 🐺 狼眼新闻
2026年5月25日,量子位报道SaaS-Bench测试结果,Claude模型在Computer-Use任务中通过率不足4%。该测试模拟全自动办公场景,要求AI完成复杂操作如邮件处理和数据分析。结果显示,AI在理解上下文和错误恢复上表现不佳。专家指出,全自动办公幻想被打破,AI仍需人类监督。开发者表示,将改进模型鲁棒性。网友调侃,“AI办公梦碎,打工人暂时安全”。
🐺 狼眼洞察
AI办公尚远,人机协作才是现实。
数据来源:新华网、路透社、法新社、BBC中文、澎湃新闻等综合整理
西北狼·狼眼世界 · 狼眼观天下,坚韧铸未来