llm-agents

标签

Cards List
#llm-agents

@wquguru: https://x.com/wquguru/status/2069641926752780384

X AI KOLs Timeline · 8小时前 缓存

本文全面梳理了截至2026年中,AI Agent记忆(Memory)的完整架构分层,包括规则文件、常驻画像、历史召回和证据链,阐述了不同层次记忆的存储方式、加载时机和治理原则,强调记忆在帮助Agent实现跨会话复利工作中的关键作用。

0 人收藏 0 人点赞
#llm-agents

MEMPROBE:通过隐藏用户状态恢复探测智能体长期记忆

arXiv cs.CL · 9小时前 缓存

MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。

0 人收藏 0 人点赞
#llm-agents

ReM-MoA:推理记忆维持混合智能体扩展

arXiv cs.AI · 9小时前 缓存

ReM-MoA 引入了一种记忆增强的混合智能体框架,通过排序推理记忆和策划的多样化记忆路由来维持扩展,在五个推理基准测试中优于之前的 MoA 变体。

0 人收藏 0 人点赞
#llm-agents

LemonHarness 技术报告

arXiv cs.AI · 9小时前 缓存

本文介绍了 LemonHarness,一个面向长周期 LLM 智能体的集成执行框架。该框架将状态变更操作限制在清晰定义的 workspace 内,引入可复用的规则知识库,并增加了时间感知执行功能。在 Terminal-Bench 2.0 上实现了 84-86% 的准确率。

0 人收藏 0 人点赞
#llm-agents

Metis:桥接文本与代码记忆以实现自我进化智能体

arXiv cs.CL · 9小时前 缓存

Metis 开展了一项对比文本记忆与代码记忆的受控研究,发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统,在 AppWorld 基准测试中,任务准确率最高提升 20.6%,执行成本最高降低 22.8%。

0 人收藏 0 人点赞
#llm-agents

我发布过的最可靠的数据代理,其 ~90% 是确定性代码。LLM 只负责解析意图和进行对话。不服来辩。

Reddit r/AI_Agents · 18小时前

作者认为,AI 代理的可靠性来自于确定性代码,而非 LLM,并分享了在混乱的真实世界数据上构建可信代理的五项关键实践。

0 人收藏 0 人点赞
#llm-agents

逃离自我确认陷阱:面向智能体经验学习的执行-提炼-验证范式

Hugging Face Daily Papers · 昨天 缓存

本文提出EDV框架,在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验,防止自我确认错误,并提升在长周期基准测试上的性能。

0 人收藏 0 人点赞
#llm-agents

@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客,涵盖了该领域10多个最新框架。以下是关键要点……链接……

X AI KOLs Timeline · 昨天 缓存

一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。

0 人收藏 0 人点赞
#llm-agents

相同模型,相同提示词,4个不同的智能体

Reddit r/LocalLLaMA · 昨天

探讨了不同的智能体架构如何从相同的底层模型和提示词中产生不同的输出,强调了智能体设计对大型语言模型行为的影响。

0 人收藏 0 人点赞
#llm-agents

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则?答案令人不安。隐藏世界越复杂…

X AI KOLs Following · 2天前 缓存

本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。

0 人收藏 0 人点赞
#llm-agents

当代理过早承诺:诊断LLM代理的过早承诺

Hugging Face Daily Papers · 2天前 缓存

本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。

0 人收藏 0 人点赞
#llm-agents

CLI-Universe:面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers · 2天前 缓存

CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。

0 人收藏 0 人点赞
#llm-agents

Libretto:赋予LLM代理音乐结构感知

Hugging Face Daily Papers · 3天前 缓存

Libretto提出了一种结构化框架,用于符号音乐生成与修改,采用LLM原生语法和经语料库校准的统计评估,涵盖多个音乐维度,使LLM代理能够将音乐视为可测量和可编辑的对象。

0 人收藏 0 人点赞
#llm-agents

PlanBench-XL:评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers · 3天前 缓存

PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞
#llm-agents

ScaffoldAgent: 基于效用引导的开放式深度研究动态大纲优化

arXiv cs.AI · 4天前 缓存

ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。

0 人收藏 0 人点赞
#llm-agents

自主智能之道:自生成目标智能、具身主体性与自我的消解

arXiv cs.AI · 4天前 缓存

本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。

0 人收藏 0 人点赞
#llm-agents

Multi-Agent Transactive Memory

arXiv cs.AI · 4天前 缓存

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。

0 人收藏 0 人点赞
#llm-agents

面向AI辅助法律发现的Human-on-the-Loop编排

arXiv cs.AI · 4天前 缓存

本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。

0 人收藏 0 人点赞
#llm-agents

ORAgentBench:LLM代理能否端到端解决具有挑战性的运筹学任务?

arXiv cs.AI · 4天前 缓存

本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。

0 人收藏 0 人点赞
#llm-agents

面向LLM Agent澄清请求的不确定性分解

arXiv cs.AI · 4天前 缓存

本文针对LLM Agent提出了一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估,显示出显著改进。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈