提前近10月!AI预测权威:进化速度超预期 年底实现「AI研发自动化」真的有可能

AI 进步速度正让最严谨的预测者都措手不及,知名 AI 预测研究员 Ajeya Cotra 近期坦承,她在两个月前才提出的 2026 年 AI 进展预测,如今看来已明显过于保守。

触发她自我修正的关键是 Anthropic 最新模型 Claude Opus 4.6 在权威评测机构 METR 基準测试中的表现,该模型在软体工程任务上的时间跨度已达约 12 小时,远超 Cotra 原先预测今年底才会达到的 24 小时水準,这意味 AI 在软体工程领域的实际进展,比她的预测提早近 10 个月。


更引人关注的是,Cotra 随后上调对AI 研发全面自动化的机率判断。她维持今年底前 AI 完全接管研究构想与执行、无需人类介入的机率为 10%,并直言道这是我第一次找不到任何可以外推的稳固趋势,来断言这件事不会很快发生。这番言论在 AI 预测圈引起广泛讨论。

Cotra 曾在 AI 安全资助机构 Coefficient Giving 担任主管,现在服务于专注 AI 能力评估的 METR。

今年 1 月 14 日,Cotra 根据 2019 至 2025 年间 AI时间跨度约每年倍增不到两次的趋势,预测 2026 年底最先进模型的 50% 成功率时间跨度约为 24 小时,80 百分位为 40 小时。

但两个月后,Opus 4.6 已在 METR 测试中,对 19 项估计需人类耗时逾 8 小时的软体工程任务,至少完成 14 项,并稳定攻克其中 4 项。

她坦言,在还剩 10 个月进展的情况下,AI 代理若在 24 小时任务上仍有一半失败,已不再可信。

Cotra 也提醒,当前时间跨度估算的不确定性显着上升。Opus 4.6 的 95% 信赖区间为 5.3 至 66 小时,原因包括长任务样本稀少、人工耗时多为估算,以及基準测试接近饱和。

随着 AI 能力逼近甚至超越数十小时量级,Cotra 认为时间跨度概念本身正受挑战。

她指出,任务可分解性随规模增加:一小时的除错几乎无法拆解,一天开发勉强可分工,而数月专案则天然适合平行子任务。一旦 AI 能稳定完成 80 小时任务,理论上可透过管理 AI分配、执行 AI并行,持续推进任意规模专案。

在所有预测中,最瞩目的是 Cotra 对AI 研发全面自动化的判断。她定义此为 AI 系统完全承担研究构想与执行,无需人类参与。

今年 1 月,她给出 10% 机率,遭同行认为偏高,但 Opus 4.6 表现出炉后,她认为 10%再次感觉合理。她仍保持审慎,指出全面自动化除需软体工程能力,还需在研究判断力与创造力取得突破,而这些正是当前 AI 相对人类的短板。

Cotra 也认为此目标未来三至五年实现的可能性,远高于今年,但她的基调已转变:我第一次找不到稳固趋势,可断言它不会很快发生。

发布于 2026-03-10 15:26
收藏
1
上一篇:应对能源危机 泰国宣布延长柴油冻涨 并推行政府机构居家办公 下一篇:伊朗战争谁付出最大代价?金融时报点名欧亚最惨