@lvwerra:我们发布了physics-intern:一个用于科学问题的简单工具!它能让Gemini 3.1 Pro等模型的性能从17.7提升至…
摘要
发布了physics-intern,一个简单工具,能显著提升Gemini 3.1 Pro等推理模型在科学问题上的性能,从17.7提升到31.4,超越了GPT 5.5 Pro。
查看缓存全文
缓存时间: 2026/05/21 17:35
我们发布了 physics-intern:一个用于科学问题的简易框架!
它能让像 Gemini 3.1 Pro 这样的模型从 17.7 提升到 31.4,从而击败 GPT 5.5 Pro。
physics-intern 框架可以包装任何模型,并通过专用子代理提升普通推理模型的性能。
虽然我认为这些框架的能力增益会越来越多地被模型本身吸收(就像提示技巧随时间消失一样),但现在通过为这些模型构建良好的脚手架并很好地集成工具,我们可以获得很多收益。
有趣的是,我们发现 GPT 5.5 Pro 实际上并没有从 physics-intern 框架中受益!
更多详情请见:https://huggingface.co/spaces/huggingface/physics-intern…
P.S. 我觉得 Harness[Model] 这种表示法挺不错的。
physics-intern:一个用于物理学研究的自主智能体 - Hugging Face 空间由 huggingface 提供
来源:https://huggingface.co/spaces/huggingface/physics-intern 正在从 HF Docker 仓库获取元数据…
相似文章
@dlouapre: 认识一下 physics-intern,我们为理论物理打造的智能体框架。它使 Gemini 3.1 Pro 在 Crit… 上的成绩从 17.7% 提升至 31.4%。
Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。
面向理论物理研究的智能体框架
Hugging Face 发布了“physics-intern”,这是一个用于理论物理研究的智能体框架。该框架使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 相比达到了新的最先进水平。
Gemini 3.1 Pro:专为最复杂任务打造的更智能模型
Google 发布 Gemini 3.1 Pro,这是一款升级后的 AI 模型,推理能力大幅提升,可应对复杂任务,现已面向开发者、企业和消费者推出。
用GPT-5.2推进科学与数学
OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。
开始使用 Gemini 3 构建
Google 发布了 Gemini 3 Pro,这是一款全新的 AI 模型,旨在编程、智能体工作流和多模态推理方面超越之前的版本。该模型可通过 Gemini API、Google AI Studio 以及全新的 Google Antigravity 开发平台使用。