Demo

从零开始,10天内用我构建的AI科学家完成ACL投稿

解码AI研究创新的DNA

Orchestra Team

2026年1月8日

阅读时间约10分钟

我一直在思考如何训练大语言模型变得更有创造力,不只是遵循指令或检索信息,而是像人类研究者那样真正地进行头脑风暴:将现有工作中的线索串联起来,发现下一个机会。

创新不是凭空产生的,那么我们能否解码科学创新？认知科学家研究创造性思维模式已有数十年。但在AI研究领域具体是怎样的？AI研究者如何在前人工作的基础上,将其转化为真正的创新？

如果我们能够捕捉研究者产生创新的方式,那些反复出现的模式,即他们如何在前人工作的基础上将其转化为新想法,我们能否利用这些思维轨迹来训练下一代AI科学家,使其在研究构思方面大幅提升？

我决定在新年假期前启动这个项目,并在1月5日完成了论文投稿。整个研究流程完全开源且透明。

三步解码创新

工作流程概览 — 图1: 创建 Sci-Reasoning 数据集的三阶段工作流程:筛选高质量论文、追踪学术脉络、发现规律性模式。

第一步: 从哪里找到高质量的研究创新案例？

我从顶级会议论文入手,具体来说是 NeurIPS、ICML 和 ICLR 的 Oral 和 Spotlight 报告。这些论文代表了所有投稿中前1-5%的精华,由专家程序委员会评选出最具新颖性和影响力的工作。我让我的智能体系统性地收集了2023-2025年的论文,共计3,819篇,构成了该领域近年来最优秀工作的大规模语料库。

演示: 我与智能体的对话记录,指导它大规模收集和整理研究论文。

第二步: 如何提取每项创新背后的推理过程？

每篇论文都在讲述一个故事:之前存在什么,我们发现了什么空白,我们如何在前人工作的基础上创造了新的东西。这种学术综合推理通常是隐含的,编织在引言和相关工作部分中。我让我的智能体将推理轨迹显式化和结构化。对于每篇论文,我使用大语言模型识别构成其学术基础的关键前驱论文,不是任意引用,而是那些具体的想法、方法或局限性直接塑造了该贡献的论文。然后综合分析作者如何讲述他们的故事:前人工作如何启发当前研究,不同想法如何关联,以及哪些思维跳跃最终导向了创新。在质量控制方面,我在已知前驱论文的论文上验证了流水线,并对低置信度案例使用了多模型交叉验证。

演示: 我与智能体的对话记录,提取推理轨迹并识别论文的学术脉络。

数据集样例 — 图2: Sci-Reasoning 数据集中的一个完整条目。对于每篇论文,我们识别关键前驱论文,生成结构化元数据(前驱角色、关系类型),以及解释学术关联的丰富综合叙述。

第三步: 数千篇论文中是否存在反复出现的模式？

如果创新是可学习的,那就应该存在模式。并非每篇论文都发明了一种全新的思维方式。研究者们在重复使用认知策略。基于近4,000篇论文的结构化推理轨迹,我让智能体运行了系统性的模式发现工作流来识别和量化这些模式,提出的问题是:哪些认知策略在反复出现？

演示: 我与智能体的对话记录,在3,819篇论文中发现并量化反复出现的思维模式。

发现: 突破性研究背后的15种思维模式

结果比我预期的更有结构性。在整个数据集中,我识别出了15种不同的思维模式,其中三种占据主导地位:

模式分布 — 图3: 3,819篇论文中15种已识别思维模式的分布。前三种模式占所有论文的52.7%。

前三大思维模式

Gap-Driven Reframing / 问题驱动的重构 (24.2%)

研究者诊断出特定的局限性,然后重新定义问题,使其映射到更合适的方法上。他们不只是解决问题,而是重塑问题。

Cross-Domain Synthesis / 跨领域综合 (18.0%)

突破往往来自从其他领域引入想法并设计兼容层。是借用和适配,而非从头发明。

Representation Shift / 表征转换 (10.5%)

改变问题的基本原语,如从像素到token、从网格到神经隐式函数,往往能简化下游的所有环节。

但真正有趣的发现在于组合。最成功的论文不只使用一种模式,而是将它们叠加:

热门模式组合

Reframe + New Primitive / 重构 + 新原语 (318篇论文)

诊断出局限性,然后引入新的表征来绕过它。

Import + Adapt / 引入 + 适配 (233篇论文)

从其他领域借用机制,并修改其表征以适配你的领域。

Diagnose + Borrow / 诊断 + 借鉴 (204篇论文)

识别缺失之处,然后在相邻领域寻找解决方案。

更多分析结果请参阅论文。

Sci-Reasoning: 解码AI研究创新的DNA

一个出于好奇心的项目最终催生了 Sci-Reasoning: 首个旨在捕捉高质量AI研究背后结构化学术综合推理的数据集。

使这一切成为可能的工作流,从爬取论文到提取脉络再到发现模式,仅用了 10天,从初始探索到论文投稿。这得益于下一代 Orchestra(即将发布),它能处理从构思到实验到写作的整个研究流水线。智能体接管了所有繁琐的工作,包括数据收集、处理、分析,同时智能化地管理整个研究项目。

数据集包含:

3,819篇来自 NeurIPS、ICML 和 ICLR (2023-2025) 的 Oral 和 Spotlight 论文
每篇论文的结构化脉络图
解释学术思维跳跃的综合叙述
支持定量分析的模式分类

训练AI科学家: 从模式到预测

让我真正兴奋的是: 这个数据集不仅仅是用来理解研究是如何发生的。它是AI研究智能体的训练数据。

我让智能体评估了当前大语言模型预测研究方向的能力, 仅提供学术前驱论文作为输入。在 NeurIPS 2025 Oral 论文上测试,Gemini 2.5 Pro 达到了 49.35% 的 Hit@10 准确率,即近一半的情况下,十个生成的想法中有一个与实际发表的贡献相匹配。

模型	Hit@10 (%)
Gemini 2.5 Pro	49.35
Claude Opus 4	42.86
GPT-5.2	38.89
Claude Sonnet 4	29.87

这并不完美,但已经非常了不起。它表明研究构思遵循着可学习的模式,我们现在可以系统性地研究这些模式,也有可能去传授这些模式。

创新即可学习的模式

创新并非魔法。它是高层次抽象上的模式匹配,结合深厚的领域知识和不懈的迭代。通过将科学推理显式化,将隐含的"他们是怎么想到的?"转变为结构化的、可查询的数据,我们正在迈向一个AI系统不仅辅助研究,更能主动参与发现的未来。

当然,这其中存在局限性。创新通常只以最终成果的形式可见:一篇叙述清晰的精心打磨的论文。完整的思维轨迹,包括失败的尝试、反复的探索、被放弃的方向,几乎从未被记录下来。它锁在研究者的脑海中,散落在数月的 Slack 消息、白板照片和被删除的 LaTeX 文件里。捕捉一切几乎是不可能的。但我们可以捕捉最终成功的推理路径,即导向高质量成果的轨迹,而这正是 Sci-Reasoning 所提供的。