@lvwerra:我们发布了physics-intern:一个用于科学问题的简单工具!它能让Gemini 3.1 Pro等模型的性能从17.7提升至…

X AI KOLs Following 工具

摘要

发布了physics-intern,一个简单工具,能显著提升Gemini 3.1 Pro等推理模型在科学问题上的性能,从17.7提升到31.4,超越了GPT 5.5 Pro。

我们发布了physics-intern:一个用于科学问题的简单工具! 它能让Gemini 3.1 Pro等模型的性能从17.7提升至31.4,从而击败GPT 5.5 Pro。 physics-intern工具可以包装任何模型,并通过专门的子代理来提升基础推理模型的性能。 虽然我认为这些工具所带来能力提升中的越来越多部分会被融入模型本身(就像提示技巧逐渐消失一样),但现在通过为这些模型构建良好的脚手架并良好集成工具,仍然可以收获很多。 有趣的是,我们发现的例外是GPT 5.5 Pro实际上并没有从physics-intern工具中受益! 在此了解更多:https://huggingface.co/spaces/huggingface/physics-intern… 附注:我觉得Harness[Model]这种表示法挺不错的。
查看原文
查看缓存全文

缓存时间: 2026/05/21 17:35

我们发布了 physics-intern:一个用于科学问题的简易框架!

它能让像 Gemini 3.1 Pro 这样的模型从 17.7 提升到 31.4,从而击败 GPT 5.5 Pro。

physics-intern 框架可以包装任何模型,并通过专用子代理提升普通推理模型的性能。

虽然我认为这些框架的能力增益会越来越多地被模型本身吸收(就像提示技巧随时间消失一样),但现在通过为这些模型构建良好的脚手架并很好地集成工具,我们可以获得很多收益。

有趣的是,我们发现 GPT 5.5 Pro 实际上并没有从 physics-intern 框架中受益!

更多详情请见:https://huggingface.co/spaces/huggingface/physics-intern…

P.S. 我觉得 Harness[Model] 这种表示法挺不错的。


physics-intern:一个用于物理学研究的自主智能体 - Hugging Face 空间由 huggingface 提供

来源:https://huggingface.co/spaces/huggingface/physics-intern 正在从 HF Docker 仓库获取元数据…

相似文章

面向理论物理研究的智能体框架

Reddit r/LocalLLaMA

Hugging Face 发布了“physics-intern”,这是一个用于理论物理研究的智能体框架。该框架使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 相比达到了新的最先进水平。

用GPT-5.2推进科学与数学

OpenAI Blog

OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。

开始使用 Gemini 3 构建

Google DeepMind Blog

Google 发布了 Gemini 3 Pro,这是一款全新的 AI 模型,旨在编程、智能体工作流和多模态推理方面超越之前的版本。该模型可通过 Gemini API、Google AI Studio 以及全新的 Google Antigravity 开发平台使用。