面向理论物理研究的智能体框架
摘要
Hugging Face 发布了“physics-intern”,这是一个用于理论物理研究的智能体框架。该框架使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 相比达到了新的最先进水平。
大家好,在 Hugging Face,我们一直在为各个领域开发智能体框架,今天我们要发布 physics-intern,以解决理论物理领域的研究级问题。这是一个多智能体框架,旨在模拟研究过程,将工作分解为几项专注的任务,并分派给专用的子智能体(计算、审查声明、挑战研究策略等)。使用 physics-intern,我们成功使 Gemini 模型在 CritPt 基准测试上的性能翻倍,并与 GPT-5.5 Pro 等模型相比达到了新的最先进水平,同时成本显著降低 :) 我们在一篇博客文章中详细介绍了我们框架的构建过程,希望它能为社区进一步开发提供帮助:[https://huggingface.co/spaces/huggingface/physics-intern](https://huggingface.co/spaces/huggingface/physics-intern)
相似文章
@dlouapre: 认识一下 physics-intern,我们为理论物理打造的智能体框架。它使 Gemini 3.1 Pro 在 Crit… 上的成绩从 17.7% 提升至 31.4%。
Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。
@RoundtableSpace:Hugging Face 用智能体把整个后训练团队自动化了。它会读论文、跑 GPU 实验、反复迭代……
Hugging Face 用自主智能体取代后训练团队,自动读论文、跑 GPU 实验并优化模型,不到 10 小时就在基准测试上提升 22 分,HealthBench 成绩比 Codex 高 60%。
Gemini API 展示代理型 Gemini 模型
Google 的 Gemini API 现已开放代理型模型,使开发者能够构建具备更强推理和行动能力的自主 AI 智能体。
推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
使用 Gemini Deep Think 加速数学与科学发现
DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。