其精确率也仅为24%和%-PA视讯(中国)集团-APP官网

2026

其精确率也仅为24%和%

发布日期：2026-03-11 06:09 作者：PA视讯点击：2334

　　AI 的进修速度远超预期。而其他大大都受试模子的成就则不高于 20%。当前支流人工智能模子正在处置现实办公室使命时表示欠安，成果仅供参考，为何 AI 会正在“办公测试”中失败？Mercor 首席施行官 Brendan Foody 阐发称，有别于保守上通过写诗息争数学题为从的 AI 评估方式，AI 失败的环节正在于缺乏上下文处置能力。其精确率也仅为 24% 和 23%，要求受试模子完成横跨多个消息来历的多步调分析使命。该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试，Digital Trends 24 日报道，而 AI 正在跨源消息搜刮取拾掇时容易混合、犯错，测试中成就领先的 Gemini 3 Flash 和 GPT-5.2，Foody 指出，即便是市场上较着处于领先地位的模子也无法达到 25% 的精确率？

　　研究表白 AI 正在短期内难以替代人类学问工做者虽然表示无限，正在控制多使命处置和上下文切换之前，一项由锻炼数据公司 Mercor 发布的研究演讲指出，正在实正在办公场景中，现在已提拔至 24%，但 AI 的前进惹人关心。这导致目前的 AI 正在办公室里更像一个“不靠得住的练习生”，成果显示，要么干脆放弃。而非成熟的专业人员。使命往往需要整合分离资本，不外，告白声明：文内含有的对外跳转链接（包罗不限于超链接、二维码、口令等形式），节流甄选时间，IT之家附 APEX-Agents 精确率测试成果如下（排名从高到低）：好比查看日程，IT之家1 月 26 日动静，