提前近10月！AI预测权威：进化速度超预期年底实现「AI研发自动化」真的有可能

匿名

作者

AI 进步速度正让最严谨的预测者都措手不及，知名 AI 预测研究员 Ajeya Cotra 近期坦承，她在两个月前才提出的 2026 年 AI 进展预测，如今看来已明显过于保守。

触发她自我修正的关键是 Anthropic 最新模型 Claude Opus 4.6 在权威评测机构 METR 基準测试中的表现，该模型在软体工程任务上的时间跨度已达约 12 小时，远超 Cotra 原先预测今年底才会达到的 24 小时水準，这意味 AI 在软体工程领域的实际进展，比她的预测提早近 10 个月。

‌

更引人关注的是，Cotra 随后上调对AI 研发全面自动化的机率判断。她维持今年底前 AI 完全接管研究构想与执行、无需人类介入的机率为 10%，并直言道这是我第一次找不到任何可以外推的稳固趋势，来断言这件事不会很快发生。这番言论在 AI 预测圈引起广泛讨论。

Cotra 曾在 AI 安全资助机构 Coefficient Giving 担任主管，现在服务于专注 AI 能力评估的 METR。

今年 1 月 14 日，Cotra 根据 2019 至 2025 年间 AI时间跨度约每年倍增不到两次的趋势，预测 2026 年底最先进模型的 50% 成功率时间跨度约为 24 小时，80 百分位为 40 小时。

但两个月后，Opus 4.6 已在 METR 测试中，对 19 项估计需人类耗时逾 8 小时的软体工程任务，至少完成 14 项，并稳定攻克其中 4 项。

她坦言，在还剩 10 个月进展的情况下，AI 代理若在 24 小时任务上仍有一半失败，已不再可信。

Cotra 也提醒，当前时间跨度估算的不确定性显着上升。Opus 4.6 的 95% 信赖区间为 5.3 至 66 小时，原因包括长任务样本稀少、人工耗时多为估算，以及基準测试接近饱和。

随着 AI 能力逼近甚至超越数十小时量级，Cotra 认为时间跨度概念本身正受挑战。

她指出，任务可分解性随规模增加：一小时的除错几乎无法拆解，一天开发勉强可分工，而数月专案则天然适合平行子任务。一旦 AI 能稳定完成 80 小时任务，理论上可透过管理 AI分配、执行 AI并行，持续推进任意规模专案。

在所有预测中，最瞩目的是 Cotra 对AI 研发全面自动化的判断。她定义此为 AI 系统完全承担研究构想与执行，无需人类参与。

今年 1 月，她给出 10% 机率，遭同行认为偏高，但 Opus 4.6 表现出炉后，她认为 10%再次感觉合理。她仍保持审慎，指出全面自动化除需软体工程能力，还需在研究判断力与创造力取得突破，而这些正是当前 AI 相对人类的短板。

Cotra 也认为此目标未来三至五年实现的可能性，远高于今年，但她的基调已转变：我第一次找不到稳固趋势，可断言它不会很快发生。

发布于 2026-03-10 15:26

喜欢 0

上一篇：应对能源危机泰国宣布延长柴油冻涨并推行政府机构居家办公下一篇：伊朗战争谁付出最大代价？金融时报点名欧亚最惨

推荐阅读