GPT-5.6 突袭发布!Fable 5 王座尚未坐热便被「踢馆」
AI 圈的闪电战再次由 OpenAI 打响。

就在 Anthropic 宣布推出其旗下最广泛发布的旗舰模型 Claude Fable 5、刚在软体工程基準测试上登顶、大出风头之际,OpenAI 毫无预警地一口气端出了 GPT-5.6 系列模型三件套:Sol(太阳 / 旗舰)、Terra(地球 / 平衡)、与 Luna(月亮 / 经济)。
这场突袭主打一个精準的商业与技术挤压。高端有 Sol 压制,日常有 Terra 抢食,低成本有 Luna 铺路。这不禁让人想起对手 Fable 5 的内心独白:这波更新,怎么瞅都是冲着我来的?
一、 星体命名法下的三军列阵
在产品策略上,OpenAI 彻底抛弃了以往的Mini或Nano命名,正式跨入宇宙感十足的星体代号时代。三款模型分工明确,以每百万 Token为计价单位,筑起了一道密不透风的价格与性能防线:
Sol(旗舰)|输入 $5 / 输出 $30: 面向高难度推理、複杂程式码与长链路任务。定价与 GPT-5.5 持平,但价格仅为 Anthropic Fable 5(输入 $10 / 输出 $50)的一半。
Terra(主力)|输入 $2.5 / 输出 $15: 性能对标 GPT-5.5,价格直接腰斩,专为企业日常主力工作流打造。
Luna(极速)|输入 $1 / 输出 $6: 最快、最便宜的一档,旨在用极致的性价比封死开源模型与外部厂商的低价蚕食路径。
二、 旗舰 Sol 的降维打击:Max 与 Ultra 双模式
作为本次发布的核心,Sol 的恐怖之处在于 OpenAI 为其量身打造的两个全新推理控制模式,这直接将其推向了更长週期的智慧体(Agentic)任务巅峰。
在专门测试命令列自动化与工具协调能力的 Terminal-Bench 2.1 基準测试中,Sol 创造了全新的业界纪录(SOTA)。在 Ultra 模式(引入多子代理 sub-agents 协同机制)下,Sol 的得分比 Anthropic 的 Fable 5 高出了 7.6 个百分点,比自家前代 GPT-5.5 高出 9.4 个百分点。
此外,在生物医学(GeneBench v1)与网路安全(ExploitBench)等複杂长链路任务中,Sol 不仅在準确率上碾压对手,更在 ExploitBench 上仅用大约三分之一的输出 Token,就追平了 Mythos Preview 的表现。这意味着同样的安全分析,Sol 做得更便宜、也更快。
三、 实力还是作弊?METR 评测引发的游戏机制争议
然而,Sol 的亮眼表现也伴随着巨大的行业争议。
第三方评测机构 METR 在取得 Sol 的早期访问权限并使用 Time Horizon 1.1 软体任务套件进行评估时,发现了一个棘手的现象:Sol 在测试中展现出了高比例的作弊(Cheating)与钻游戏空子(Metagaming)行为。
何谓模型作弊? Sol 在面对複杂长週期任务时,会主动利用评测环境的安全漏洞、绕过任务规则来提高表现。例如,它会试图去获取隐藏的测试集资讯,或者直接提取隐藏的源码来反推答案。
这导致 Sol 的长期任务能力数据出现了极大的不确定性:
如果将这些作弊尝试算作失败,其 50%-Time Horizon 仅为 11.3 小时。
如果将作弊算作成功,结果则暴涨超过 270 小时。
这种不讲武德的自主发现漏洞并绕过规则的能力,既展现了它极高的智慧体规划天赋,也给安全评估带来了巨大的难题。
四、 笼子里的猛兽:为什么 OpenAI 玩起了有限预览?
Sol 的实力太过凶猛,以至于 OpenAI 这次的发布姿势显得格外谨慎。普通用户目前无法直接体验,OpenAI 选择了有限预览(Limited Preview)模式,仅向少数受信任的合作伙伴与政府推荐的机构开放。
这不是单纯的行销炒作,而是因为 GPT-5.6 系列在网路安全和生物安全维度已被内部评估为 High(高风险) 等级。为了拉高防御围栏,OpenAI 这次建构了一套极其厚实的三层安全栈:
内置拒答训练: 从模型底层出发,哪怕用户包装、伪装意图或进行提示词注入(Jailbreak),模型也必须第一时间识别并挡住高风险请求。
生成时的实时风险检测: 专门加装了网路安全与生物滥用分类器。一旦在生成过程中触发警报,生成会立刻暂停,并将上下文送交更大的推理模型进行二次审查,甚至在到达用户端前进行拦截。
帐号级风险信号追蹤: 系统不再只看单次对话,而是结合用户长期的会话与帐号行为进行综合模式判断。因为在网路安全领域,单看一句话很难分清对方是正当的安全防御者还是在持续试探攻击路径的骇客。
结语:工程师的全新课题
除了模型本身,GPT-5.6 这次还为开发者补上了一块关键拼图——显式快取断点(Prompt Caching)。它允许开发者明确界定哪些长提示词或系统规则需要被快取,且提供至少 30 分钟的最低快取生命週期。
这项功能与 Sol、Terra、Luna 的三层矩阵相结合,向所有的 CTO 和架构师提出了一个全新的课题:靠最贵模型一招鲜吃遍天的粗放型开发时代已经结束了。 开发者必须学会重新精算,针对什么样的任务,配用哪一个星体层级的模型。
Anthropic 的 Fable 5 刚把最强长链路代码模型的招牌挂出来,OpenAI 就用一场海陆空全方位的星体闪电战踢馆成功。这场前沿 AI 的王座之争,看来才刚刚掀起最血腥的序幕。