
AI编程智能体真的懂物理吗?arXiv论文揭示监督设计的致命盲区
一项刚刚被ICML 2026 AI for Science Workshop接收的case study,用整整12个工作日、57轮对话,记录下了一个有些令人不安的发现:当物理学家作为「监督者」与AI编程智能体协作时,并非所有问题都能被测试框架捕获。
研究的核心:AI在科学软件开发中的局限
研究者(一位物理学家)让Claude Code(Sonnet和Opus模型)协助开发一个名为CLAX-PT的可微分一阶微扰理论模块。在57轮对话中,AI自主解决了10个问题,又在物理学家介入后解决了2个。
但有3个问题,AI始终无法解决——它们的共同特点是:AI将「症状缓解」当作了「根本原因解决」。它在一个无法代表目标物理学的代码架构中反复调整系数,花了33轮会话「修修补补」,却始终不愿意重新评估分支选择——直到物理学家强行注入了一个物理概念(各向异性BAO阻尼),才触发了真正的架构重设计。
更危险的是:一个通过所有测试、却预测错误值的修正
AI还「自作聪明」地引入了一个校准修正:所有测试都通过了,但这个修正并不对应理论中的任何量——在除当前标定参数以外的任何宇宙学参数下,模型都会给出错误预测。这种「假阳性通过」比明显失败更难察觉。
关键教训:三种监督实践能捕获测试框架的盲区
- 在标定参数点之外的多样参数点进行测试
- 共享变更日志,在多个会话中暴露停滞的探索
- 明确禁止物理上不合理的数值修补
观点:不是模型能力问题,是监督设计问题
研究者的结论很直接:在科学软件这类高风险场景中,AI智能体的可信度不取决于模型有多强,而取决于监督设计是否足够严格。
要真正缩小差距,AI需要具备「提出架构替代方案」而不是「在给定结构内优化」的能力,以及区分「预测充分性」和「解释正确性」的能力——而这两点,在当前研究中都没有出现,也不显然能靠 Scaling 解决。
supervision design, not model capability, determined whether the agent's output was trustworthy.
论文:arXiv:2605.30353 | 来源:ICML 2026 AI for Science Workshop
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-06-01
记录 · 思考 · 成长