标签
Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
本文介绍了 FoodCHA,这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架,旨在解决饮食监测中的层级一致性和属性识别问题。
Chat2Workflow 提出了一套基准与智能体框架,用于将自然语言直接转化为可执行的可视化工作流。实验表明,现有大模型虽能捕捉意图,却难以胜任工业级自动化。
本文介绍了 Discover and Prove (DAP),一个用于 Lean 4 自动定理证明的开源智能体框架,针对"困难模式"问题进行优化——即在构造形式化证明前必须独立发现答案。该工作发布了新的困难模式基准变体,达到最先进的结果,同时揭示了 LLM 答案准确率(>80%)与形式化证明器成功率(<10%)之间的巨大差距。
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。