面向理论物理研究的智能体框架

Reddit r/LocalLLaMA 模型

摘要

Hugging Face 发布了“physics-intern”,这是一个用于理论物理研究的智能体框架。该框架使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 相比达到了新的最先进水平。

大家好,在 Hugging Face,我们一直在为各个领域开发智能体框架,今天我们要发布 physics-intern,以解决理论物理领域的研究级问题。这是一个多智能体框架,旨在模拟研究过程,将工作分解为几项专注的任务,并分派给专用的子智能体(计算、审查声明、挑战研究策略等)。使用 physics-intern,我们成功使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 等模型相比达到了新的最先进水平,同时成本显著降低 :) 我们在一篇博客文章中详细介绍了我们框架的构建过程,希望它能为社区进一步开发提供帮助:[https://huggingface.co/spaces/huggingface/physics-intern](https://huggingface.co/spaces/huggingface/physics-intern)
查看原文

相似文章

HarnessX:可组合、自适应且可演进的智能体夹具工坊

Hugging Face Daily Papers

HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。