@k_dense_ai: 推出Science Superpowers — 一种面向AI研究代理的完整计算科学方法论。它让你的代…

X AI KOLs Timeline 工具

摘要

Science Superpowers是一种开源的、面向AI研究代理的计算科学方法论,强制预注册和可重复工作流,以防止p-hacking和HARKing。

推出Science Superpowers — 一种面向AI研究代理的完整计算科学方法论。它让你的代理像一位严谨的科学家那样用数据进行科学研究,而不是像一个急于求成的自动补全工具。 https://t.co/3gFVS9iOFh
查看原文
查看缓存全文

缓存时间: 2026/05/29 14:10

Introducing Science Superpowers — 一个为 AI 研究智能体打造的全方位计算科学方法论。它能让你的智能体像严谨科学家一样用数据做研究,而不是像急于求成的自动补全那样瞎猜。 https://t.co/3gFVS9iOFh


K-Dense-AI/science-superpowers

来源: https://github.com/K-Dense-AI/science-superpowers

Science Superpowers

Science Superpowers 是一套为你的研究智能体准备的完整计算科学方法论,基于一组可组合的技能以及初始指令构建,确保智能体真正使用它们。

它是对 Superpowers(https://github.com/obra/superpowers)(一套软件开发方法论)在不同领域的重新实现:用数据做科学。架构相同——通过会话启动引导程序自动触发的技能——但工作流是研究生命周期,核心纪律是预注册,而非测试驱动开发。

工作原理

从你启动智能体的那一刻开始。一旦它发现你试图研究某件事,它不会直接跳到在你的数据上运行代码。相反,它会后退一步,帮助你把一个模糊的兴趣转化为精确、可证伪的问题。

问题明确后,它将该工作建立在已有文献和标准方法的基础上,设计分析,并预注册假设、预测和决策规则——在查看结果之前。这种区分——验证性 vs. 探索性,锁定预测后再看数据——正是保护工作免受 p 值操纵和 HARKing(事后假设)侵害的关键。

然后,它在可复现的工作区(固定环境、固定随机种子、不可变的原始数据)中执行预注册的计划,通过根因方式调查异常,而不是悄悄丢弃不方便的数据,在最终报告前用重新生成的证据验证每一个声明,并对结果进行红队测试。

由于技能会自动触发,你无需做任何特殊操作。你的研究智能体自然拥有 Science Superpowers。

基本工作流

  1. framing-research-questions(问题框架化)—— 在任何分析前激活。将粗略的兴趣转化为精确、可证伪的问题,包含假设、所需数据以及什么算作答案。保存问题文档。
  2. surveying-prior-work(已有研究调研)—— 将问题和方法建立在已知信息之上:标准方法、已知混杂因素、先验效应量。
  3. designing-the-analysis(分析设计)—— 将工作分解为可执行的分析步骤,包含具体数据集、变量、模型/检验、统计功效以及决策规则。
  4. preregistering-analysis(分析预注册)—— 铁律。在查看任何结果之前,锁定假设、方向性预测和决策规则,以及验证性/探索性的划分。
  5. setting-up-reproducible-analysis(设置可复现分析)—— 隔离、可复现的工作区:固定环境、固定随机种子、不可变原始数据、干净的基线。
  6. subagent-driven-analysis(子智能体驱动分析)或 executing-analysis(执行分析)—— 按照预注册计划执行,并设置审查检查点。
  7. investigating-anomalous-results(异常结果调查)—— 当结果看起来不对劲时激活。先进行根因调查,然后才考虑调整。
  8. verifying-results-before-claiming(声称前验证结果)—— 证据先于声明:重新运行、检查假设、鲁棒性、复现。
  9. requesting-red-team-review(请求红队审查) / receiving-critical-review(接收批判性审查)—— 在相信或报告结果之前进行对抗性审查。
  10. reporting-and-archiving-findings(报告并归档发现)—— 复现性检查,然后撰写稿件/预印本/迭代/搁置/丢弃,最后归档代码+数据+环境。

智能体在任何任务前都会检查相关技能。 强制工作流,而非建议。

内含技能

技能库

框架构建

  • framing-research-questions(问题框架化)—— 将兴趣转化为可证伪的问题(入口关卡)
  • surveying-prior-work(已有研究调研)—— 将问题和方法建立在现有文献基础上

规划与预注册

  • designing-the-analysis(分析设计)—— 详细的、可执行的分析计划
  • preregistering-analysis(分析预注册)—— 在查看结果前锁定预测和决策规则(包含统计谬误参考)

执行

  • subagent-driven-analysis(子智能体驱动分析)—— 每个分析步骤使用全新子智能体,配合两阶段审查
  • executing-analysis(执行分析)—— 带检查点的内联批处理执行

纪律

  • investigating-anomalous-results(异常结果调查)—— 针对意外结果的四阶段根因过程
  • verifying-results-before-claiming(声称前验证结果)—— 证据先于声明

审查

  • requesting-red-team-review(请求红队审查)—— 派遣一位怀疑论审查者攻击分析
  • receiving-critical-review(接收批判性审查)—— 以严谨态度回应批评,而非表演性同意

工作区与报告

  • setting-up-reproducible-analysis(设置可复现分析)—— 隔离、可复现的工作区
  • reporting-and-archiving-findings(报告并归档发现)—— 决定如何报告;归档代码、数据、环境
  • dispatching-parallel-investigations(派遣平行调查)—— 并发独立调查

元技能

  • writing-science-skills(编写科学技能)—— 按照测试方法论创建新技能
  • using-science-superpowers(使用 Science Superpowers)—— 技能系统介绍

理念

  • 预注册 —— 在查看结果前陈述预测和决策规则
  • 验证性 vs. 探索性 —— 始终标注,绝不模糊
  • 可复现性 —— 固定环境、固定随机种子、不可变原始数据
  • 证据优先于声明 —— 在宣布发现前进行验证
  • 根因优先于修补 —— 调查异常;不悄悄丢弃数据

安装

安装方式因工具而异。如果你使用多个工具,请为每个工具单独安装 Science Superpowers。

Cursor

在 Cursor 智能体聊天中,从插件市场安装,或者将 Cursor 指向此仓库作为插件。sessionStart 钩子(hooks/hooks-cursor.json)会自动加载引导程序。

Claude Code

注册指向此仓库的市场(.claude-plugin/marketplace.json),然后安装 science-superpowers 插件。SessionStart 钩子(hooks/hooks.json)会加载引导程序。

Codex

使用已提交的 Codex 清单文件 .codex-plugin/plugin.json

Gemini CLI

安装为扩展;gemini-extension.json 将上下文文件指向 GEMINI.md,该文件会加载引导程序和 Gemini 工具映射。

OpenCode

参见 .opencode/INSTALL.md

Google Antigravity

Antigravity 原生支持 Agent Skills(相同的 SKILL.md 格式),并在会话启动时读取 GEMINI.md / AGENTS.md / .agent/rules/ 作为常开规则。安装技能并加载引导规则——参见 .antigravity/INSTALL.md

贡献

参见 AGENTS.md / CLAUDE.md 获取贡献者指南,以及 skills/writing-science-skills/SKILL.md 获取创建和测试技能的完整指南。

许可证

MIT 许可证——参见 LICENSE 文件。本项目重新实现了 Jesse Vincent 的 Superpowers(https://github.com/obra/superpowers)的架构。

相似文章

K-Dense-AI/scientific-agent-skills

GitHub Trending (daily)

K-Dense-AI 发布了“Scientific Agent Skills”,这是一个开源的技能集合,包含 135 项技能,旨在帮助 AI 代理在基因组学和药物发现等领域执行复杂的科学工作流程。它支持多种 AI 模型,并通过 Agent Skills 标准与 Cursor 和 Claude Code 等工具集成。

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。

科学领域的代理型AI实验

arXiv cs.AI

本文介绍了两个代理型AI框架:DeepTS/DeepCollector和DeepScribe,它们利用混合本地-云端架构和大语言模型,自动化科学工作流程,包括时间序列数据整理以及将物理讲座转化为结构化报告。