一篇值得细读的论文

读到一篇颇有启发的论文，An AI system to help scientists write expert-level empirical software。简记几点感想：

Gemini 的概括相当到位：一项研究的影响力，很大程度上取决于其如何定义并框架化自身试图解决的问题。将一个具体问题提升为普遍性挑战，是使研究成果获得外溢效应的关键步骤。作者并未将工作表述为“为若干基准测试任务找到更好的代码生成方法”，而是宣称其意在“加速科学发现的循环”。这种问题意识和叙事尺度上的差异，正是优秀论文与顶尖论文之间的分水岭。研究不应止步于“解决一个问题”；更重要的是学会如何框架化问题、泛化解决方案，并设计一套令人信服的评估策略来支撑论点。论文的叙事结构与证据链，和技术创新本身同样重要。
Gemini 的另一点判断也很准确：深刻的贡献并不必然要求从零开始发明一种全新的理论或算法。它也完全可以来自一种新的组合方式：将既有而强大的工具重新编排，进而解决任何单一工具都难以触及的问题。因此，研究者需要始终保有跨领域的视野，持续追问：“如果将 A 领域的某项强技术用于 B 领域的经典问题，会发生什么？”发现新连接、生成新组合的能力，本身就是创新的重要源泉。
这更像是科研范式层面的变革。就 PUCT (Predictor + UCB applied to Trees) 而言，面对这类任务，核心已从解题转向找题，转向设计足够精确、足以反映科学目标的度量标准。过去也许可以通过预先布局数据集，或掌握标准（即优化目标）的定义权，再由自己刷出 SOTA，来完成类似意义上的创新；但在新的路径下，这种路径的生命周期被显著压缩。定义优化方向、开辟新优化路径的能力，在任何时期都至关重要。如今创造性破坏已经抵达门前，那种被成果绩效绑架、甘愿充当执行者的研究方式，也就是在既有范式下重复 1 -> 100 的增量创新，已经不再成立；因为单纯比拼执行力，不可能拼得过不知疲倦的 AI 系统。
事实上，真正玩得起这类 AI 系统的只会是大型机构。对于个人而言，独立完成这种超复杂系统在工程量和资源投入上都极不现实。谁能率先在算力、数据与落地链路上完成布局，谁就可能主导下一个时代的科研生产；这几乎就是范式制定权的王座。归根到底，研究者必须适应新旧范式交替与创造性破坏。只会堆叠论文发表数量、服从导师权威的科研方式，正在迅速失去价值。因而对于个人而言，相较于更加传统的学术技能，真正 AI-native 的能力要实际得多。尽管许多人仍然假装看不见房间里的大象，继续沿用旧有培养方式，并且只把 AI 理解为一个新的创新与发表方向，但周期和规律并不会轻易服从人的主观意志。
我们也应当对可量化指标祛魅。过去，对可量化指标的过度依赖或许还可以被解释为一种效率上的 trade-off；但在工具层面，我们现在已经拥有更好的选择。无论如何，评价标准的改变都是必须适应的事实：招募再多执行者，也无法与一个能够提出问题、并在模糊地带持续探索的人竞争。反复建构各类标准化测试与选拔机制，表面上看似合理；但落到某些老旧品味手中，往往只是让古德哈特定律一再重演。因此，也不必抱怨招来的人和学生只会做题、做不了事情、做不出转化；更应当先反思一下，自己的判断品味究竟已经贫乏到什么程度。