标签
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。
介绍趣味性自主机器人学习(Playful Agentic Robot Learning),其中具身编码智能体通过自主探索游戏(self-directed play)学习可复用技能,无需额外训练即可提升下游任务表现。提出的RATs系统在仿真和现实世界迁移中相比基线取得了显著提升。
一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。
本文提出了GTBP,一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架,它通过理论收敛保证改进了提示优化,并在基准测试中优于现有方法。
文章讨论了未来AI系统应该使用统一的智能体栈还是模块化集成,并主张超越静态评估,采用更现实的鲁棒性基准测试。
TimeRouter 提出了一种高效的时间序列基础模型路由框架,利用轻量级判别路由和选择性门控,无需大型语言模型(LLM)开销即可自适应选择最佳专家模型,在 GIFT-EVAL 排行榜上达到了最先进水平。
介绍了RECAP,一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明,现有提示优化方法在该场景下表现不佳,亟需新方法。
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
τ-Rec是一个用于智能推荐系统的可验证基准,它用可验证奖励和控制对话约束取代了主观的LLM-as-a-judge评估,揭示了主流模型存在陡峭的可靠性悬崖——即便是表现最佳的模型,其pass@1也仅有约57%。
本文提出了“Trivium”框架,该框架将长时域时间遗憾和认知遗憾作为一等目标,与结果遗憾一同用于智能体LLM系统中的因果记忆控制器。作者证明,在没有干预通道的情况下,仅基于结果的学习无法区分因果结构与虚假结构,而他们的方法在CausalBench-Seq实验中实现了O(log E)的时间遗憾,而基线方法则为线性增长。
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。
本文提出了设计和优化实用智能体LLM系统的原则性方法,引入了一个包含伪工具和固定工作流的框架,以提高模块化、成本效益和跨多种任务的准确性。
MAVEN 是一种轻量级符号推理框架,通过模块化验证和自适应工具编排,提升了智能体工具调用的泛化能力。它在新的压力测试基准 MAVEN-Bench 上取得了显著的准确率提升,并且以极低的成本与专有模型保持竞争力。
Peter Steinberger 分享他成功办理签证,即将搬去旧金山参加 MS Build 以及 GitHub 总部举办的 OpenClaw 会后活动,活动包括来自 NVIDIA 的炉边谈话、专题讨论和演示,主题聚焦于智能体系统。
Anthropic的新AI模型Claude Mythos,使用Claude Code框架,据报道在OpenAI先前证伪之后,通过找到替代的简单证明,解决了Erdős的不同距离问题。这展示了LLMs进行独立科学突破的能力。
本文针对医疗AI代理中的工具故障问题,提出了一种基于GRPO的强化学习框架,利用实例级选择、分歧感知协同学习和熵引导采样来纠正错误的工具共识,并在七个医疗基准测试中提高了可靠性。