好文分享！ | kleedaisuki

非常有意思的文章 An AI system to help scientists write expert-level empirical software，一点感想：

我的 Gemini 说得非常好：一项研究的影响力，很大程度上取决于你如何定义和框架化它所要解决的问题。将一个具体问题提升为一个普遍性挑战，是让研究成果产生倍增效应的关键一步。作者没有说他们“为几个基准测试任务找到了更好的代码生成方法”，而是宣称他们在“加速科学发现的循环”，这种格局上的差异，正是优秀论文与顶尖论文的分水岭。不应仅仅是“解决一个问题”。你需要学会如何框架化你的问题，如何泛化你的解决方案，以及如何设计一个令人信服的评估策略来证明你的观点。论文的叙事结构和证据链，与技术创新本身同等重要。
还是我的 Gemini 说得非常好：不一定要求你从零开始发明一个全新的理论或算法。一个深刻的贡献，完全可以来自于发现一种新的方式，去组合那些已经存在的、强大的工具，从而解决一个对于任何单一工具而言都遥不可及的问题。你应该时刻保持跨领域的视野，思考“如果我将A领域的这个强大技术，用到B领域的那个经典问题上，会发生什么？”这种发现新连接、创造新组合的能力，是创新的重要源泉。
这是科研范式的变革。就这个 PUCT(Predictor + UCB applied to Trees)，面对这类任务，核心从解题彻底变成了找题，转变为设计完美的、能够准确反映科学目标的度量标准。过去或许可以通过布局数据集或者把握标准（优化目标）的定义权，然后自己刷 SOTA 来做这种创新，但是在新路径下这种路径的生命周期一下子缩水了很多。定义优化的方向、优化的新路径这种能力在哪个时期都关键，现在来点创造性破坏，那种过去为成果效绩绑架做执行者，也就是重复一个既有范式下的 1 -> 100 创新不行哩，因为拼执行能力不可能拼得过不知疲倦的 AI 系统。
事实上玩得起这种 AI 系统的只有大型机构，个人要搞定这种超复杂系统工程量和资源上非常不实际。谁先能在算力、数据、落地上布局搞定这个 AI 系统，谁就可以主导下一个时代的科研，这是范式制定的王座。归根到底还是要适应新旧范式交替和创造性破坏，只会刷论文发表数量和服从导师权威的科研方式真要一文不值了。所以相比于更加传统的学术技能，对于个人还是 AI-native 的要实际得多；虽然大家都装作看不见房间里的大象，继续延续着过去的培养方式，而只把 AI 看作一个创新和发表的新方向，但是周期和规律是不会轻易随着人的主观意志而转移的。
我们应该对可量化的指标祛魅了，过于依赖可量化的指标在过去是对效率的 trade-off；但是在工具性的层面上我们现在有好得多的选择。无论怎么样都一定要适应评价标准的改变——招再多的执行者，都不可能竞争得过一个能提出问题、在模糊地带的探索者。整天搞各种标准化测试、选拔，看着是合理的，但是以老古董们的品味而言直接就变成了古德哈特定律不断再上演——所以也不要怪什么招上来的人和学生只会做题，做不了事情、搞不了转化，先反思一下自己的品味差到什么程度了。