|

科技端
2000活跃值=1元

首页 > 科技原创 > 科技原创 > 新测试表明AI实际办公准确率不足25%，但进展比想象更快

新测试表明AI实际办公准确率不足25%，但进展比想象更快

发布时间：2026-01-26 18:01:26

1 月 26 日消息，Digital Trends 24 日报道，一项由训练数据公司 Mercor 发布的研究报告指出，当前主流人工智能模型在处理实际办公室任务时表现不佳，最高准确率未超过 25%，研究表明 AI 在短期内难以替代人类知识工作者。

该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试，有别于传统上通过写诗和解数学题为主的 AI 评估方法，该基准测试直接采用律师、顾问和银行家的真实工作流，要求受试模型完成横跨多个信息来源的多步骤综合任务。

结果显示，即使是市场上明显处于领先地位的模型也无法达到 25% 的准确率，测试中成绩领先的 Gemini 3 Flash 和 GPT-5.2，其准确率也仅为 24% 和 23%，而其他大多数受试模型的成绩则不高于 20%。

新测试表明AI实际办公准确率不足25%，但进展比想象更快

为何 AI 会在“办公测试”中失败？Mercor 首席执行官 Brendan Foody 分析称，AI 失败的关键在于缺乏上下文处理能力。在真实办公场景中，任务往往需要整合分散资源，比如查看日程，翻阅即时通讯记录、阅读 PDF 文档和电子表格，而 AI 在跨源信息搜索与整理时容易混淆、出错，要么干脆放弃。这导致目前的 AI 在办公室里更像一个“不可靠的实习生”，而非成熟的专业人员。

附 APEX-Agents 准确率测试结果如下（排名从高到低）：

Gemini 3 Flash (High) - 24.0%

GPT-5.2 (High) - 23.0%

Claude Opus 4.5 (High) - 18.4%

Gemini 3 Pro (High) - 18.4%

GPT-5 (High) - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B (High) - 4.7%

Kimi K2 Thinking - 4.0%

尽管表现有限，但 AI 的进步引人关注。Foody 指出，一年前同类测试的准确率仅为 5%-10%，如今已提升至 24%，AI 的学习速度远超预期。不过，研究也强调，在掌握多任务处理和上下文切换之前，AI 尚无法胜任复杂的知识工作。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“科技端用户上传并发布"，本平台仅提供信息存储服务。

下一篇:阶跃星辰新帅印奇：目标成为中国基础模型领域优秀公司之一

上一篇:小鹏汽车1000座移动充电站计划上线春运期间没电了可找小鹏X9充电

科技原创更多>>

小米汽车官方披露1月交付数据，单月交付量突破39000台，行业多家权威媒体同步确认该数据欣旺达重新提交港股招股书申请：核心经营稳健，IPO进程稳步推进天齐锂业终审败诉！全球最大锂盐湖保卫战败了增幅近20%，科思创大幅提升在华TDI产能福特与通用汽车就向破产供应商First Brands提供预付款融资展开谈判 2025款宝腾X50中期改款发布：换装1.5T四缸发动机 FF阿联酋工厂交付两台FX Super One 新测试表明AI实际办公准确率不足25%，但进展比想象更快三菱汽车宣布下任社长人选岸浦惠介，2026年4月1日正式生效阶跃星辰完成超50亿人民币B+轮融资印奇出任董事长 38岁姚班天才，又有了新身份王传福、魏建军、李斌、李想们，将在2026年进入“超级智力”竞赛周期商业航天抢滩2026：蓝箭航天、星河动力、中科宇航三大总工程师同台披露最新时间表韩国工业机器人安装量全球第四零部件主要从中国进口蔚来乐道已增投超7309块全新电池，电池翻倍进度超90% 2025全球汽车集团销量榜：比亚迪跻身前五吉利增长飞速特斯拉申请FSD自动驾驶相关缺陷调查5周宽限期，美监管机构批准小米18/18 Pro发布节奏确认：9月见官方确认！ChatGPT答案底部将现广告，付费用户免打扰 Steam面向开发者提出新规：应说明游戏中哪些玩家可见内容使用AI 苹果App Store测试新设计：移除广告蓝色背景夸爆小米SU7的福特CEO，要花300亿梭哈电车 OpenAI全面上线“廉价版”ChatGPT Go订阅方案：每月8美元 2025年手机销量基本确定：VIVO第1、小米第2、苹果第3 日本车企认输：中国车像智能手机，日本车像翻盖手机马斯克万万没想到，华为吹的牛又实现了，激光雷达降至1000元内 12月新势力最大黑马诞生：直接进前3，比小米汽车销量还高壁仞亏大了？跑到香港上市，市值仅摩尔线程、沐曦三分之一被高估的特斯拉：销量为比亚迪三分之一，市值却是11倍感谢华为、寒武纪等厂商努力，中国市场“一英独大”时代终结

Copyright 2016-2025 科技端版权所有京ICP备16189025号