MOOSE-Star (ICML 2026): 7B模型 + 108K论文数据集用于科学假设发现

Reddit r/LocalLLaMA 论文

摘要

MOOSE-Star 提出了一个从 DeepSeek-R1-Distill-Qwen-7B 微调而来的 7B 模型,用于科学假设发现,同时附带一个包含 108K NCBI 论文的数据集。该模型在灵感检索准确率上达到了最先进水平,超越了像 GPT-5.4 和 Gemini-3 Pro 这样更大的模型。

先声明:我在 MiroMind 负责社区工作。我们的一位研究人员刚刚在 Hugging Face 上发布了完整的 MOOSE-Star 系列——一个经过后训练用于科学假设发现的 7B 模型,以及背后的数据集。论文已被 ICML 2026 接收。🤗 系列:[https://huggingface.co/collections/ZonglinY/moose-star-models-and-data](https://huggingface.co/collections/ZonglinY/moose-star-models-and-data) **内容包括:** * **MS-IR-7B / MS-HC-7B / MS-7B**:用于灵感检索、假设组合和联合使用的 7B 模型。基础模型:DeepSeek-R1-Distill-Qwen-7B。 * **TOMATO-Star**:108,717 篇 NCBI 论文被分解为(背景、假设、灵感),每个灵感都对应真实的引用。涵盖生物学、化学、医学、医学影像、心理学、认知科学。预处理耗时约 38,400 A800 GPU 小时。 * **严格的评估时间划分**:训练集 ≤ 2025 年 9 月,测试集 = 2025 年 10 月(超过基础模型的知识截止日期)。 **灵感检索准确率** |模型|IR 准确率| |:-|:-| |随机选择|6.70%| |R1-Distilled-Qwen-7B (基础)|28.42%| |Claude Sonnet 4.6|45.02%| |DeepSeek-R1|45.11%| |Gemini-3 Flash|51.44%| |GPT-5.4|51.50%| |**MS-7B (7B, 联合 IR + HC)**|**54.34%**| |**MS-IR-7B (7B, 仅 IR)**|**54.37%**| |Gemini-3 Pro|54.89%| 本地运行:这是一个标准的 DeepSeek-R1-Distill-Qwen-7B 微调模型,因此任何能运行该基础模型的工具都能运行它——llama.cpp / vLLM / SGLang 都没问题。fp16 下约 14GB,单张 24GB 显卡即可。代码采用 Apache-2.0 许可,数据采用 CC-BY-4.0 许可。欢迎进行压力测试,尽情尝试!如有问题或任何看法,欢迎在下方留言!📄 [https://arxiv.org/abs/2603.03756](https://arxiv.org/abs/2603.03756) 💻 [https://github.com/ZonglinY/MOOSE-Star](https://github.com/ZonglinY/MOOSE-Star)
查看原文

相似文章

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

Open source battle: GLM vs Kimi vs MiMo vs DeepSeek

Reddit r/LocalLLaMA

本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。