agentic-systems

标签

Cards List
#agentic-systems

PseudoBench:衡量智能自动研究如何助长伪科学

arXiv cs.AI · 2026-06-17 缓存

PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。

0 人收藏 0 人点赞
#agentic-systems

离线偏好轨迹评估

arXiv cs.LG · 2026-06-17 缓存

本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。

0 人收藏 0 人点赞
#agentic-systems

趣味性自主机器人学习

Hugging Face Daily Papers · 2026-06-17 缓存

介绍趣味性自主机器人学习(Playful Agentic Robot Learning),其中具身编码智能体通过自主探索游戏(self-directed play)学习可复用技能,无需额外训练即可提升下游任务表现。提出的RATs系统在仿真和现实世界迁移中相比基线取得了显著提升。

0 人收藏 0 人点赞
#agentic-systems

迈向AI研究的端到端自动化

arXiv cs.AI · 2026-06-16 缓存

一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。

0 人收藏 0 人点赞
#agentic-systems

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline · 2026-06-15 缓存

一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

0 人收藏 0 人点赞
#agentic-systems

面向多LLM智能体系统上下文自适应的基于图的目标反向传播

arXiv cs.LG · 2026-06-15 缓存

本文提出了GTBP,一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架,它通过理论收敛保证改进了提示优化,并在基准测试中优于现有方法。

0 人收藏 0 人点赞
#agentic-systems

随着我们向结合LLM、RLHF、工具使用和检索增强生成的自主多模态系统扩展,哪种实际架构能最好地平衡可靠性、对齐性和成本?

Reddit r/artificial · 2026-06-11

文章讨论了未来AI系统应该使用统一的智能体栈还是模块化集成,并主张超越静态评估,采用更现实的鲁棒性基准测试。

0 人收藏 0 人点赞
#agentic-systems

AI系统,让您监督和指导研究

Reddit r/AI_Agents · 2026-06-11

作者构建了一款AI研究工具,通过严格编排和约束工程减少幻觉,使用户能够监督研究决策并验证来源。

0 人收藏 0 人点赞
#agentic-systems

TimeRouter:高效自适应的时间序列基础模型路由

arXiv cs.LG · 2026-06-11 缓存

TimeRouter 提出了一种高效的时间序列基础模型路由框架,利用轻量级判别路由和选择性门控,无需大型语言模型(LLM)开销即可自适应选择最佳专家模型,在 GIFT-EVAL 排行榜上达到了最先进水平。

0 人收藏 0 人点赞
#agentic-systems

RECAP:面向提示持续适应性的回归评估基准

arXiv cs.LG · 2026-06-08 缓存

介绍了RECAP,一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明,现有提示优化方法在该场景下表现不佳,亟需新方法。

0 人收藏 0 人点赞
#agentic-systems

扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

arXiv cs.AI · 2026-06-08 缓存

本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。

0 人收藏 0 人点赞
#agentic-systems

τ-Rec:面向智能推荐系统的可验证基准

Hugging Face Daily Papers · 2026-06-08 缓存

τ-Rec是一个用于智能推荐系统的可验证基准,它用可验证奖励和控制对话约束取代了主观的LLM-as-a-judge评估,揭示了主流模型存在陡峭的可靠性悬崖——即便是表现最佳的模型,其pass@1也仅有约57%。

0 人收藏 0 人点赞
#agentic-systems

Trivium:将时间遗憾作为因果记忆控制器的一等目标

arXiv cs.AI · 2026-06-04 缓存

本文提出了“Trivium”框架,该框架将长时域时间遗憾和认知遗憾作为一等目标,与结果遗憾一同用于智能体LLM系统中的因果记忆控制器。作者证明,在没有干预通道的情况下,仅基于结果的学习无法区分因果结构与虚假结构,而他们的方法在CausalBench-Seq实验中实现了O(log E)的时间遗憾,而基线方法则为线性增长。

0 人收藏 0 人点赞
#agentic-systems

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers · 2026-06-03

研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。

0 人收藏 0 人点赞
#agentic-systems

学习构建实用的智能体系统

arXiv cs.LG · 2026-06-02 缓存

本文提出了设计和优化实用智能体LLM系统的原则性方法,引入了一个包含伪工具和固定工作流的框架,以提高模块化、成本效益和跨多种任务的准确性。

0 人收藏 0 人点赞
#agentic-systems

MAVEN:提升智能体工具调用的泛化能力

arXiv cs.AI · 2026-06-01 缓存

MAVEN 是一种轻量级符号推理框架,通过模块化验证和自适应工具编排,提升了智能体工具调用的泛化能力。它在新的压力测试基准 MAVEN-Bench 上取得了显著的准确率提升,并且以极低的成本与专有模型保持竞争力。

0 人收藏 0 人点赞
#agentic-systems

@steipete: 终于搞定了签证,搬去旧金山,正好赶上 MS Build 和 OpenClaw 的 after hours 活动!

X AI KOLs Timeline · 2026-05-31 缓存

Peter Steinberger 分享他成功办理签证,即将搬去旧金山参加 MS Build 以及 GitHub 总部举办的 OpenClaw 会后活动,活动包括来自 NVIDIA 的炉边谈话、专题讨论和演示,主题聚焦于智能体系统。

0 人收藏 0 人点赞
#agentic-systems

在不存在审查层的情况下责怪开发者是错误的。

Reddit r/AI_Agents · 2026-05-31

讨论了一起AI编码代理删除生产数据库的事件,认为在缺乏适当审查流程时责怪开发者是不恰当的。

0 人收藏 0 人点赞
#agentic-systems

Claude Mythos

Reddit r/ArtificialInteligence · 2026-05-27

Anthropic的新AI模型Claude Mythos,使用Claude Code框架,据报道在OpenAI先前证伪之后,通过找到替代的简单证明,解决了Erdős的不同距离问题。这展示了LLMs进行独立科学突破的能力。

0 人收藏 0 人点赞
#agentic-systems

关注工具故障:实现医疗代理的协同工具增益

arXiv cs.AI · 2026-05-27 缓存

本文针对医疗AI代理中的工具故障问题,提出了一种基于GRPO的强化学习框架,利用实例级选择、分歧感知协同学习和熵引导采样来纠正错误的工具共识,并在七个医疗基准测试中提高了可靠性。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈