agentic-systems

#agentic-systems

PseudoBench：衡量智能自动研究如何助长伪科学

arXiv cs.AI ↗ · 2026-06-17 缓存

PseudoBench 是一个基准测试，用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现，它们极易生成具有说服力的伪科学报告，且拒绝率接近于零，这要求在部署前进行科学对齐。

0 人收藏 0 人点赞

#agentic-systems

离线偏好轨迹评估

arXiv cs.LG ↗ · 2026-06-17 缓存

本文提出了一种针对智能体系统的离线偏好轨迹评估方法，通过时间偏好而非二元成功指标来比较轨迹。研究表明，该方法将平局比例从约75%降低到35%，从而提升了跨多样化基准的区分能力和数据效率。

0 人收藏 0 人点赞

#agentic-systems

趣味性自主机器人学习

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

介绍趣味性自主机器人学习（Playful Agentic Robot Learning），其中具身编码智能体通过自主探索游戏（self-directed play）学习可复用技能，无需额外训练即可提升下游任务表现。提出的RATs系统在仿真和现实世界迁移中相比基线取得了显著提升。

0 人收藏 0 人点赞

#agentic-systems

迈向AI研究的端到端自动化

arXiv cs.AI ↗ · 2026-06-16 缓存

一篇介绍AI科学家（The AI Scientist）的论文，该系统自动化了从想法生成到同行评审的整个研究生命周期，展示了人工智能在科学贡献方面日益增长的能力。

0 人收藏 0 人点赞

#agentic-systems

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条推文讨论了两种agentic GPU内核优化系统：@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents，两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

0 人收藏 0 人点赞

#agentic-systems

面向多LLM智能体系统上下文自适应的基于图的目标反向传播

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了GTBP，一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架，它通过理论收敛保证改进了提示优化，并在基准测试中优于现有方法。

0 人收藏 0 人点赞

#agentic-systems

随着我们向结合LLM、RLHF、工具使用和检索增强生成的自主多模态系统扩展，哪种实际架构能最好地平衡可靠性、对齐性和成本？

Reddit r/artificial ↗ · 2026-06-11

文章讨论了未来AI系统应该使用统一的智能体栈还是模块化集成，并主张超越静态评估，采用更现实的鲁棒性基准测试。

0 人收藏 0 人点赞

#agentic-systems

AI系统，让您监督和指导研究

Reddit r/AI_Agents ↗ · 2026-06-11

作者构建了一款AI研究工具，通过严格编排和约束工程减少幻觉，使用户能够监督研究决策并验证来源。

0 人收藏 0 人点赞

#agentic-systems

TimeRouter：高效自适应的时间序列基础模型路由

arXiv cs.LG ↗ · 2026-06-11 缓存

TimeRouter 提出了一种高效的时间序列基础模型路由框架，利用轻量级判别路由和选择性门控，无需大型语言模型（LLM）开销即可自适应选择最佳专家模型，在 GIFT-EVAL 排行榜上达到了最先进水平。

0 人收藏 0 人点赞

#agentic-systems

RECAP：面向提示持续适应性的回归评估基准

arXiv cs.LG ↗ · 2026-06-08 缓存

介绍了RECAP，一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明，现有提示优化方法在该场景下表现不佳，亟需新方法。

0 人收藏 0 人点赞

#agentic-systems

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了AARR（扮演真正的研究者）基准系列，旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示，即使表现最佳的代理成功率也仅为68.3%，凸显了其在领域敏感性和细微推理能力方面的不足。

0 人收藏 0 人点赞

#agentic-systems

τ-Rec：面向智能推荐系统的可验证基准

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

τ-Rec是一个用于智能推荐系统的可验证基准，它用可验证奖励和控制对话约束取代了主观的LLM-as-a-judge评估，揭示了主流模型存在陡峭的可靠性悬崖——即便是表现最佳的模型，其pass@1也仅有约57%。

0 人收藏 0 人点赞

#agentic-systems

Trivium：将时间遗憾作为因果记忆控制器的一等目标

arXiv cs.AI ↗ · 2026-06-04 缓存

本文提出了“Trivium”框架，该框架将长时域时间遗憾和认知遗憾作为一等目标，与结果遗憾一同用于智能体LLM系统中的因果记忆控制器。作者证明，在没有干预通道的情况下，仅基于结果的学习无法区分因果结构与虚假结构，而他们的方法在CausalBench-Seq实验中实现了O(log E)的时间遗憾，而基线方法则为线性增长。

0 人收藏 0 人点赞

#agentic-systems