@KanikaBK: 中国刚刚发布了一款工具,它全天候工作,永不休眠,从不抱怨。它只需一篇处于拒稿边缘的论文……

X AI KOLs Timeline 工具

摘要

一个新的开源工具自动化了研究论文优化的整个流程,利用 Claude Code 执行操作,并使用一个独立的模型进行评估,以在夜间迭代改进论文。该系统通过自主的 GPU 实验和叙述调整,成功将一篇处于拒稿边缘的论文提升到了可提交的状态。

中国刚刚发布了一款工具,它全天候工作,永不休眠,从不抱怨。它在一夜之间将一篇处于拒稿边缘的论文变成了可以提交的状态。在 4 轮迭代中,进行了 20 多次 GPU 实验,零人工干预。免费。以下是实际发生的情况。一位中国研究人员构建了一个工作流,让 Claude Code 在你睡觉时进行研究。不仅仅是阅读论文,而是实际运行 GPU 实验、分析结果、重写叙述、剔除站不住脚的主张,并不断迭代,直到论文达到可提交的标准,然后停止。他们在夜间对一篇真实的机器学习论文运行了该工具。以下是早上看到的评分表: ↳ 夜晚开始时:10 分中的 5.0 分。处于拒稿边缘 ↳ 第 1 轮:6.5 分。添加了标准指标,发现了一个指标解耦问题 ↳ 第 2 轮:6.8 分。一项关键主张无法复现。系统自行调整了叙述 ↳ 第 3 轮:7.0 分。大规模种子研究否定了主要改进主张。系统进行了适应 ↳ 第 4 轮:7.5 分。诊断证据锁定。达到可提交状态 在第 1 轮和第 4 轮之间,没有任何人为干预。 这就是该工具与其他所有 AI 研究工具不同的地方。Claude Code 负责执行。阅读文件、编写代码、SSH 连接到 GPU 服务器、运行实验、收集结果。但是,一个完全独立的模型负责评估和评分。没有模型会给自己打分。这种分离创造了一个真正的反馈循环,而不是 AI 仅仅告诉自己做的好。 该系统还有一些不可违反的规则: ↳ 最多 4 轮,没有无限循环 ↳ 超过 4 个 GPU 小时的实验会被标记,需人工审查,不会自动运行 ↳ 明确规则:不要为了获得高分而隐藏弱点 ↳ 在重新提交之前,必须实际实施修复措施,没有空洞的承诺 还有一个用于文献发现的工作流。你给它一个研究领域,它会在 arXiv 和 Google Scholar 上搜索,绘制领域地图,发现差距,并告诉你机会在哪里。学术实验室为昂贵的计算集群和博士生团队付费,正是为了进行这种夜间迭代。有人构建了整个系统,将其放在 GitHub 上,采用 MIT 许可证,并用中英文写了 README。我仍然不明白为什么它还没有普及。但很快它就会普及。
查看原文

相似文章

@zhanlin990410: https://x.com/zhanlin990410/status/2055666660925943834

X AI KOLs Timeline

本文介绍了使用Kimi(拥有100万token上下文窗口的AI工具)进行学术研究的6步工作流,包括文献倾倒、找空白、文献综述初稿、方法论压力测试、论证压力测试和全文组装,可大幅缩短论文写作时间。