说科学的语言:迈向面向自然科学的通用生成基础模型

Hugging Face Daily Papers 论文

摘要

LOGOS是一个科学生成语言模型,它将多种科学对象及其空间交互编码为令牌序列,从而在自然科学的各类任务中实现统一的自主回归框架。1B、3B和8B参数的模型展现出性能随规模一致提升,并已发布以促进研究。

在本报告中,我们提出LOGOS(科学生成对象语言),这是一个科学生成语言模型,它基于共享的科学语法,在单一的自主回归框架内统一了自然科学中的异构任务。该模型将多种科学对象及其空间交互编码为共同词汇上的令牌序列。通过将空间接触和约束模式表示为离散令牌,模型能够以纯序列的方式捕捉复杂的结构交互,而无需依赖显式坐标或几何神经网络。这种统一表示使得各种下游任务能够在相同的语法空间中一致地表述为下一个令牌预测,从而在多领域持续预训练和下游目标之间建立了强对齐。在多种任务上,LOGOS始终匹配或超越了特定领域的基线,为自然科学中“一个模型适用于所有”的可行性提供了初步证据。我们训练了不同规模的LOGOS模型(1B、3B和8B参数),并发现模型大小与性能之间存在一致的正相关性。这表明,人工智能驱动科学(AI4S)的未来可能不在于构建一个独立于大语言模型(LLM)的技术栈。相反,它可能依赖于通过共享架构、共享训练范式和共享推理基础设施,将科学基础模型与LLM深度对齐,从而使LLM真正成为AI4S的新入口。我们发布了模型权重及相关资源,以促进进一步研究。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:56

论文页面 - 用科学的语言说话:迈向通用自然科学生成式基础模型

来源:https://huggingface.co/papers/2606.16905

摘要

一种统一的科学生成语言模型将多样化的科学对象与空间相互作用编码为令牌序列,通过自回归下一个令牌预测在多个领域展现出强大的性能。

本报告中,我们提出 LOGOS(科学中的生成式对象语言),这是一个科学生成语言模型,它将自然科学中的异构任务统一在一个基于共享科学语法的自回归框架(https://huggingface.co/papers?q=autoregressive%20framework)内。它利用通用的词表将多样化的科学对象及其空间相互作用编码为令牌序列(https://huggingface.co/papers?q=token%20sequences)。通过将空间接触与约束模式表示为离散令牌,该模型以纯序列化的方式捕获复杂的结构交互,无需依赖显式的坐标或几何神经网络。这种统一表示使得广泛的后续任务能够在相同的语法空间中被一致地转化为下一个令牌预测(https://huggingface.co/papers?q=next-token%20prediction),从而在持续的多领域预训练与下游目标之间建立起强对齐。在多样化任务中,LOGOS 始终达到或超越领域特定基线,为自然科学领域“一个模型适用于所有场景”的可行性提供了初步证据。我们训练了不同规模(1B、3B 和 8B 参数)的 LOGOS 模型,并发现模型大小与性能之间存在一致的正相关关系。这表明,人工智能助力科学(AI for Science,AI4S)的未来或许不在于构建一个与大语言模型(LLM)相分离的独立技术栈,而在于通过共享架构、共享训练范式以及共享推理基础设施,使科学基础模型(https://huggingface.co/papers?q=scientific%20foundation%20models)与 LLM 深度对齐,从而使 LLM 真正成为 AI4S 的新入口。我们发布了模型权重及相关资源,以促进进一步研究。

查看 arXiv 页面(https://arxiv.org/abs/2606.16905)查看 PDF(https://arxiv.org/pdf/2606.16905)GitHub19(https://github.com/LOGOS-Hub/LOGOS)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16905)

在您的智能体中获取此论文:

hf papers read 2606.16905

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型4

LOGOS-Hub/LOGOS-8B 8B• 更新于2天前 • 36 • 6(https://huggingface.co/LOGOS-Hub/LOGOS-8B)

LOGOS-Hub/LOGOS-pretrain-1B 1B• 更新于2天前 • 34 • 4(https://huggingface.co/LOGOS-Hub/LOGOS-pretrain-1B)

LOGOS-Hub/LOGOS-pretrain-3B 4B• 更新于2天前 • 30 • 3(https://huggingface.co/LOGOS-Hub/LOGOS-pretrain-3B)

LOGOS-Hub/LOGOS-pretrain-8B 308k• 更新于2天前 • 32 • 3(https://huggingface.co/LOGOS-Hub/LOGOS-pretrain-8B)

引用此论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.16905 以从本页面链接。

引用此论文的 Spaces0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.16905 以从本页面链接。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文加入收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

# 巴别塔的大语言模型

ML at Berkeley

本文反思了文本生成的历史,在现代大语言模型(如 GPT-4)与豪尔赫·路易斯·博尔赫斯和克劳德·香农的早期概念之间建立了联系。文章探讨了香农的概率实验以及博尔赫斯“巴别图书馆”的隐喻,如何有助于阐明关于生成文本本质和数据结构的根本问题。

大语言模型作为语言学中的模态模型

arXiv cs.CL

本文运用科学哲学框架论证,大语言模型作为最小模型在语言学中具有认识论价值,可用于提供可能性解释,但尚不足以构成对人类语言的实际性解释。