面向理论物理研究的智能体框架
摘要
Hugging Face 发布了“physics-intern”,这是一个用于理论物理研究的智能体框架。该框架使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 相比达到了新的最先进水平。
大家好,在 Hugging Face,我们一直在为各个领域开发智能体框架,今天我们要发布 physics-intern,以解决理论物理领域的研究级问题。这是一个多智能体框架,旨在模拟研究过程,将工作分解为几项专注的任务,并分派给专用的子智能体(计算、审查声明、挑战研究策略等)。使用 physics-intern,我们成功使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 等模型相比达到了新的最先进水平,同时成本显著降低 :) 我们在一篇博客文章中详细介绍了我们框架的构建过程,希望它能为社区进一步开发提供帮助:[https://huggingface.co/spaces/huggingface/physics-intern](https://huggingface.co/spaces/huggingface/physics-intern)
相似文章
@dlouapre: 认识一下 physics-intern,我们为理论物理打造的智能体框架。它使 Gemini 3.1 Pro 在 Crit… 上的成绩从 17.7% 提升至 31.4%。
Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。
@lvwerra:我们发布了physics-intern:一个用于科学问题的简单工具!它能让Gemini 3.1 Pro等模型的性能从17.7提升至…
发布了physics-intern,一个简单工具,能显著提升Gemini 3.1 Pro等推理模型在科学问题上的性能,从17.7提升到31.4,超越了GPT 5.5 Pro。
@RoundtableSpace:Hugging Face 用智能体把整个后训练团队自动化了。它会读论文、跑 GPU 实验、反复迭代……
Hugging Face 用自主智能体取代后训练团队,自动读论文、跑 GPU 实验并优化模型,不到 10 小时就在基准测试上提升 22 分,HealthBench 成绩比 Codex 高 60%。
HarnessX:可组合、自适应且可演进的智能体夹具工坊
HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。
Gemini API 展示代理型 Gemini 模型
Google 的 Gemini API 现已开放代理型模型,使开发者能够构建具备更强推理和行动能力的自主 AI 智能体。