观点

构建真正有用的AI科研协作伙伴

超越自主智能体,迈向协作式研究工作流

2025年11月13日

阅读时间约5分钟

注: 如果你了解我,可能知道今年早些时候我构建了 Curie,一个全自动的AI科研系统,用于自动化科学实验。但随着时间的推移,通过更多的用户研究和我自己作为用户的体验,我可以说它的实用性非常有限。这段经历促使我重新思考这个问题:如何构建一个真正帮助研究人员日常工作流程的AI科研伙伴。

这篇博客文章是通过人机协作的方式与AI科研伙伴一起创作的。所有的观点和论证都是我自己的,但AI帮助我发现了相关资料、丰富了论证,并综合整理了这篇文档。在很多方面,这篇文章本身就是我所提出的核心论点的概念验证:我们需要的是人机协作的AI科研伙伴,而不是全自动的。

我的新闻推送中不断出现这样的标题:像今天的Kosmos (Mitchener et al. 2025) 这样的AI可以在一天之内完成六个月的工作量,单次运行就能阅读1,500篇论文并编写42,000行代码。这很令人兴奋,但当最初的惊叹褪去之后,一个挥之不去的问题浮现了:这对我有什么帮助?

几个月前,我尝试复现其中一篇轰动性的"AI科学家"论文,以为它能为我正在进行的一项繁琐分析提供捷径。但输出结果与我的实际研究课题严重不符,完全无法使用,而且全自动的AI智能体偏离了我规划的研究路径,走上了一条完全错误的方向。这种怀疑不是针对技术的潜力,而是针对头条新闻中的突破与每天充满摩擦的研究实践之间的鸿沟。这些系统更像演示品,而非工具。它们为头条而表演,对我的工作流却毫无用处。

🤖 从黑箱预言机到透明的合作伙伴

那次经历使许多研究人员正在感受到的问题具象化了。当下"AI科学家"的主流范式往往像一个黑箱预言机:你提出一个问题,它给出一个最终答案。如果答案是错的,事后纠正的代价往往非常高昂。这迫使我们进行一场高风险的、要么全赢要么全输的赌博。

研究界正在认识到的是,我们不需要一个预言机,我们需要一个实验室伙伴。这就是人机交互式研究工作流的核心理念:人类和AI系统在持续的多步骤过程中协作构建研究成果。不是一步到位的大跳跃,而是一起迈出许多可验证的小步。

核心理念:交互式工作流建立在几个关键支柱之上:

•任务分解: 将复杂目标(例如"分析这个数据集")拆分为更小的、可检查的子目标。
•轮流协作: 明确人类和AI之间如何交替控制权的协议。谁提议下一步?谁验证?谁执行?
•会话持久化: 一个共享的"实验笔记本"或工作空间,记录我们协作的历史,包括代码、假设和失败的尝试,以便我们可以暂停、恢复和审计我们的工作。

这将AI的角色从一个交付最终稿件的万事通,转变为一个会说"这是我提议的第一步,以下是我的假设。你看对吗?"的勤勉助手。

⚠️ 旧方式:一次性回答的风险

我们正在摆脱的基线是"一次性"或"AI主导"的系统。你写一个复杂的提示词,AI一次性生成数千行代码或一份完整的分析。吸引力是显而易见的:最大化自动化,最小化投入。但缺点是严重的:

•不透明: AI的推理过程是隐藏的。如果它在数据清洗中犯了一个细微的错误,这个错误会悄无声息地传播到整个分析中。
•脆弱性: 这些系统对初始提示词非常敏感。一条略有歧义的指令就可能让AI走上一条完全错误的路径,这一点我已经有过切身体会。
•验证成本高: 验证一个庞大的、整体性的输出,其工作量往往不亚于自己从头做起。一项关于研究可重复性的研究发现,全AI主导的团队实际上可能不如纯人类或AI辅助的团队表现好,这很可能是由于验证负担所致 (Brodeur et al., 2025)。

这种方式从根本上与科学过程不一致,因为科学过程是迭代的、探索性的,充满了回溯和修正。

✨ 更好的方式:构建我们可以信任的工作流

幸运的是,新一波研究正聚焦于构建这种新一代协作工具。这些努力不是瞄准一个单一的、神奇的AI,而是提供实用的脚手架,使人机协作更加透明和高效。这是一种有意识地走向渐进式自动化的方向,优先处理低风险、高回报的步骤 (Musslick et al., 2024)。

以下是研究人员正在采用的不同方式:

分解问题(任务分解): Kazemitabaar等人的研究 (Kazemitabaar et al., 2024) 探索了两种强大的模型。逐步式界面将任务拆解为微小的、可顺序执行的步骤,每一步都有可编辑的假设。分阶段式界面将它们分组为更大的阶段(如数据加载、分析、绘图)。两者都为用户提供了关键的干预节点。
AI科研伙伴进行细粒度文献综述,搜索过程透明可见,帮助研究人员逐步学习和渐进深入。
让交互更流畅(更好的界面): 除了聊天之外,新型界面正在涌现。BISCUIT项目 (Cheng et al., 2024) 在笔记本中引入了"临时UI",即滑块或表单等临时控件,让你在代码生成之前就能调整AI的参数。像Flowco (Freund et al., 2025) 这样的系统使用可视化数据流模型,分析中的每一步都是一个你可以检查和调试的节点。
交互式研究画布,支持自由式头脑风暴,想法可以在人类和AI之间被探索、连接和协作完善。
创建共享记忆(持久化架构): 为了支持长期协作,我们需要一个持久的、共享的上下文。概念框架如三层架构(交互层、流程层、基础设施层) (Wang & Lu, 2025) 提出将流程本身作为一个一等的、可检查的对象。多智能体系统如`freephdlabor` (Li et al., 2025) 使用共享的、基于文件的工作空间作为可靠的事实来源,防止智能体之间仅通过传递文本消息而导致的信息衰减。

这两种方法之间的差异是鲜明的。这不仅仅是技术上的区别,更是关于技术在科学中扮演什么角色的哲学区别。

特征	自主式AI	人机协作
主要目标	替代人类研究人员	增强人类研究人员
人类角色	被动监督者	主动协作者
交互方式	发送后遗忘,黑箱操作	透明、可编辑 (Feng et al.)
控制权	AI掌握主要主导权	人类保留最终控制权
工作流	独立运作	集成到工具中 (Wang et al.)
实证	往往降低表现 (Vaccaro et al.)	持续的实用价值 (Long et al.)

表1: 自主式与人机协作式AI科研伙伴范式对比

🔬 实证结果

这不仅仅是理论,早期实验表明这些交互式方法确实有效。

🎯 让步骤可见,让用户拥有控制权

在一项对比标准聊天机器人与逐步式和分阶段式界面进行数据分析的对照研究中,Kazemitabaar等人发现,两种分解方法都显著提升了用户的控制感。更重要的是,它使得验证AI的工作和介入纠正其方向变得更加容易 (Kazemitabaar et al., 2024)。这直接解决了黑箱系统的失败模式。

协作式写作与构思,研究人员通过迭代优化引导AI,在利用AI辅助进行综合与结构化的同时,保持对方向和论证的控制。

🎯 辅助优于全自动化

Brodeur等人的一项大规模研究让研究团队评估科学论文的可重复性。他们发现,AI辅助的团队表现与纯人类团队一样好,两者都显著优于AI主导的团队(在这些团队中人类仅提供最少的指导) (Brodeur et al., 2025)。这提供了有力的证据:对于需要细致判断的研究任务,目前AI最有效的角色是协作者,而非自主替代品。

通过具体的参数和约束指导实验智能体,让研究人员在整个生命周期中精确控制实验设计和执行。

透明且可重复的实验执行过程,支持实时监控,让研究人员可以追踪进度、在需要时介入,并确保完全可重复。

🧭 开放问题与前方的路

我们才刚刚踏上这段旅程,许多困难的问题仍待解决。

•什么是合适的粒度? 什么时候展示五个小步骤比一个大阶段更好?答案可能取决于用户的专业水平和任务的复杂度。
•如何构建真正的持久化记忆? LLM的上下文窗口是有限的。我们需要健壮的会话检查点和记忆压缩技术,同时不丢失关键信息。
•如何衡量成功? 我们缺乏评估人机协作的标准基准。我们需要超越任务完成度的指标,例如验证工作量、用户信任度,以及最终结果的可重复性。
•如何使其更加健壮? StepFly框架用于自动化故障排除指南,表明在离线阶段添加结构(例如在执行之前从文档中提取工作流图)可以显著提高在线自动化的可靠性 (Mao et al., 2025)。我们如何更广泛地应用这一原则?

✨ 从自主智能体到赋能工具

AI取代科学家的愿景不仅无用,而且毫无趣味。真正的挑战在于,优秀的研究人员花了太多时间陷于摩擦之中,与基础设施搏斗、手动综合文献、处理行政事务,而非专注于发现。

令人振奋的机会在于构建能消除这些摩擦的AI协作伙伴。我们需要的工具应该处理繁琐的工作,让研究人员专注于真正重要的事情。AI在科学中的未来不是把人类从循环中移除,而是设计一个更有创造力、更强大、更令人愉悦的循环,赋予每一位研究人员超能力,去提出重大问题并找到突破性的答案。

参考文献

Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition — Kazemitabaar et al., 2024
Interaction, Process, Infrastructure: A Unified Architecture for Human-Agent Collaboration — Wang et al., 2025
BISCUIT: Scaffolding LLM-Generated Code with Ephemeral UIs in Computational Notebooks — Cheng et al., 2024
Build Your Personalized Research Group: A Multiagent Framework for Continual and Interactive Science Automation — Li et al., 2025
Flowco: Rethinking Data Analysis in the Age of LLMs — Freund et al., 2025
Cocoa: Co-Planning and Co-Execution with AI Agents — Feng et al., 2024
Texera: A System for Collaborative and Interactive Data Analytics Using Workflows — Wang et al., 2024
Comparing Human-Only, AI-Assisted, and AI-Led Teams on Assessing Research Reproducibility — Brodeur et al., 2025
When Combinations of Humans and AI Are Useful: A Systematic Review and Meta-Analysis — Vaccaro et al., 2024
Automating the practice of science – Opportunities, Challenges, and Implications — Musslick et al., 2024
Agentic Troubleshooting Guide Automation for Incident Management (StepFly) — Mao et al., 2025
Not Just Novelty: A Longitudinal Study on Utility and Customization of an AI Workflow — Long et al., 2024
SciOps: Achieving Productivity and Reliability in Data-Intensive Research — Johnson et al., 2024
Kosmos: An AI Scientist for Autonomous Discovery — Mitchener et al., 2025

这篇研究博客使用 Orchestra Research 创作,这是一个加速科学发现的AI驱动研究平台。