标签
本文提出了一种基于代理的框架,利用编码代理从自然语言提示生成物理上可信的世界模拟,在物理准确性和指令保真度方面优于基于视频的模型。
GraphBit是一种基于图的代理框架,采用Rust引擎实现确定性DAG编排,消除了幻觉和无限循环。在GAIA基准测试中,它达到了67.6%的准确率,且零框架诱导错误、低延迟。
提出了一种使用LangChain智能体的智能体框架,用于大规模人群心理健康筛查,重点关注从临床转录中检测抑郁症。该框架逐步锁定已验证的阶段,并使用代理引导的评估来确保可信度和适应性。
Nexus 提出了一种多智能体框架,将时间序列预测分解为多个专门阶段,利用大语言模型整合数值模式与上下文信息,在基准测试上取得了最先进的结果。
Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
本文介绍了 FoodCHA,这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架,旨在解决饮食监测中的层级一致性和属性识别问题。
Chat2Workflow 提出了一套基准与智能体框架,用于将自然语言直接转化为可执行的可视化工作流。实验表明,现有大模型虽能捕捉意图,却难以胜任工业级自动化。
本文介绍了 Discover and Prove (DAP),一个用于 Lean 4 自动定理证明的开源智能体框架,针对"困难模式"问题进行优化——即在构造形式化证明前必须独立发现答案。该工作发布了新的困难模式基准变体,达到最先进的结果,同时揭示了 LLM 答案准确率(>80%)与形式化证明器成功率(<10%)之间的巨大差距。
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。