MOOSE-Star (ICML 2026): 7B模型 + 108K论文数据集用于科学假设发现
摘要
MOOSE-Star 提出了一个从 DeepSeek-R1-Distill-Qwen-7B 微调而来的 7B 模型,用于科学假设发现,同时附带一个包含 108K NCBI 论文的数据集。该模型在灵感检索准确率上达到了最先进水平,超越了像 GPT-5.4 和 Gemini-3 Pro 这样更大的模型。
先声明:我在 MiroMind 负责社区工作。我们的一位研究人员刚刚在 Hugging Face 上发布了完整的 MOOSE-Star 系列——一个经过后训练用于科学假设发现的 7B 模型,以及背后的数据集。论文已被 ICML 2026 接收。🤗 系列:[https://huggingface.co/collections/ZonglinY/moose-star-models-and-data](https://huggingface.co/collections/ZonglinY/moose-star-models-and-data)
**内容包括:**
* **MS-IR-7B / MS-HC-7B / MS-7B**:用于灵感检索、假设组合和联合使用的 7B 模型。基础模型:DeepSeek-R1-Distill-Qwen-7B。
* **TOMATO-Star**:108,717 篇 NCBI 论文被分解为(背景、假设、灵感),每个灵感都对应真实的引用。涵盖生物学、化学、医学、医学影像、心理学、认知科学。预处理耗时约 38,400 A800 GPU 小时。
* **严格的评估时间划分**:训练集 ≤ 2025 年 9 月,测试集 = 2025 年 10 月(超过基础模型的知识截止日期)。
**灵感检索准确率**
|模型|IR 准确率|
|:-|:-|
|随机选择|6.70%|
|R1-Distilled-Qwen-7B (基础)|28.42%|
|Claude Sonnet 4.6|45.02%|
|DeepSeek-R1|45.11%|
|Gemini-3 Flash|51.44%|
|GPT-5.4|51.50%|
|**MS-7B (7B, 联合 IR + HC)**|**54.34%**|
|**MS-IR-7B (7B, 仅 IR)**|**54.37%**|
|Gemini-3 Pro|54.89%|
本地运行:这是一个标准的 DeepSeek-R1-Distill-Qwen-7B 微调模型,因此任何能运行该基础模型的工具都能运行它——llama.cpp / vLLM / SGLang 都没问题。fp16 下约 14GB,单张 24GB 显卡即可。代码采用 Apache-2.0 许可,数据采用 CC-BY-4.0 许可。欢迎进行压力测试,尽情尝试!如有问题或任何看法,欢迎在下方留言!📄 [https://arxiv.org/abs/2603.03756](https://arxiv.org/abs/2603.03756) 💻 [https://github.com/ZonglinY/MOOSE-Star](https://github.com/ZonglinY/MOOSE-Star)
相似文章
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
@AlphaSignalAI: 一个4B模型现在可以在科学家之前预测科学突破。研究人员通常通过组…
一篇新论文介绍了GIANTS-4B,一个通过强化学习训练、拥有40亿参数的模型,它通过结合基础论文中的想法来预测科学见解,在相似度和引文潜力方面优于像Gemini 3 Pro这样的大型模型。
Open source battle: GLM vs Kimi vs MiMo vs DeepSeek
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。
@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
@eliebakouch:我最喜欢的项目之一是斯坦福团队的Marin,他们采用科学的方法进行训练,并且愿意……
Marin是斯坦福大学开发的开源框架,用于可复现的基础模型研究,涵盖数据整理、分词、训练和评估;它被用于训练一个80亿参数的模型,其性能超过了Llama 3.1 8B。