一篇值得细读的论文

读到一篇颇有启发的论文,An AI system to help scientists write expert-level empirical software。简记几点感想:

  1. Gemini 的概括相当到位:一项研究的影响力,很大程度上取决于其如何定义并框架化自身试图解决的问题。将一个具体问题提升为普遍性挑战,是使研究成果获得外溢效应的关键步骤。作者并未将工作表述为“为若干基准测试任务找到更好的代码生成方法”,而是宣称其意在“加速科学发现的循环”。这种问题意识和叙事尺度上的差异,正是优秀论文与顶尖论文之间的分水岭。研究不应止步于“解决一个问题”;更重要的是学会如何框架化问题、泛化解决方案,并设计一套令人信服的评估策略来支撑论点。论文的叙事结构与证据链,和技术创新本身同样重要。

  2. Gemini 的另一点判断也很准确:深刻的贡献并不必然要求从零开始发明一种全新的理论或算法。它也完全可以来自一种新的组合方式:将既有而强大的工具重新编排,进而解决任何单一工具都难以触及的问题。因此,研究者需要始终保有跨领域的视野,持续追问:“如果将 A 领域的某项强技术用于 B 领域的经典问题,会发生什么?”发现新连接、生成新组合的能力,本身就是创新的重要源泉。

  3. 这更像是科研范式层面的变革。就 PUCT (Predictor + UCB applied to Trees) 而言,面对这类任务,核心已从解题转向找题,转向设计足够精确、足以反映科学目标的度量标准。过去也许可以通过预先布局数据集,或掌握标准(即优化目标)的定义权,再由自己刷出 SOTA,来完成类似意义上的创新;但在新的路径下,这种路径的生命周期被显著压缩。定义优化方向、开辟新优化路径的能力,在任何时期都至关重要。如今创造性破坏已经抵达门前,那种被成果绩效绑架、甘愿充当执行者的研究方式,也就是在既有范式下重复 1 -> 100 的增量创新,已经不再成立;因为单纯比拼执行力,不可能拼得过不知疲倦的 AI 系统。

  4. 事实上,真正玩得起这类 AI 系统的只会是大型机构。对于个人而言,独立完成这种超复杂系统在工程量和资源投入上都极不现实。谁能率先在算力、数据与落地链路上完成布局,谁就可能主导下一个时代的科研生产;这几乎就是范式制定权的王座。归根到底,研究者必须适应新旧范式交替与创造性破坏。只会堆叠论文发表数量、服从导师权威的科研方式,正在迅速失去价值。因而对于个人而言,相较于更加传统的学术技能,真正 AI-native 的能力要实际得多。尽管许多人仍然假装看不见房间里的大象,继续沿用旧有培养方式,并且只把 AI 理解为一个新的创新与发表方向,但周期和规律并不会轻易服从人的主观意志。

  5. 我们也应当对可量化指标祛魅。过去,对可量化指标的过度依赖或许还可以被解释为一种效率上的 trade-off;但在工具层面,我们现在已经拥有更好的选择。无论如何,评价标准的改变都是必须适应的事实:招募再多执行者,也无法与一个能够提出问题、并在模糊地带持续探索的人竞争。反复建构各类标准化测试与选拔机制,表面上看似合理;但落到某些老旧品味手中,往往只是让古德哈特定律一再重演。因此,也不必抱怨招来的人和学生只会做题、做不了事情、做不出转化;更应当先反思一下,自己的判断品味究竟已经贫乏到什么程度。