llm-agents

#llm-agents

@mdancho84: 构建自主LLM代理的基础知识——一份38页PDF，揭示了构建具有自主性的AI代理的秘密…

X AI KOLs Timeline ↗ · 16小时前缓存

一条推文，推广一份关于构建自主LLM代理的38页PDF指南，提供免费资源学习关于自主性AI系统。

0 人收藏 0 人点赞

#llm-agents

@RitOnchain: https://x.com/RitOnchain/status/2069693848478269730

X AI KOLs Timeline ↗ · 19小时前缓存

本文详细介绍了一家系统性基金如何用基于RAG的LLM代理架构取代其传统NLP流水线，从非结构化数据中实现了alpha生成能力提升340%。文中引用了近期研究（Alpha-GPT 2.0、FinCon、FinAgent），表明在自动化因子发现和交易性能方面取得了显著进步。

0 人收藏 0 人点赞

#llm-agents

@wquguru: https://x.com/wquguru/status/2069641926752780384

X AI KOLs Timeline ↗ · 22小时前缓存

本文全面梳理了截至2026年中，AI Agent记忆（Memory）的完整架构分层，包括规则文件、常驻画像、历史召回和证据链，阐述了不同层次记忆的存储方式、加载时机和治理原则，强调记忆在帮助Agent实现跨会话复利工作中的关键作用。

0 人收藏 0 人点赞

#llm-agents

MEMPROBE：通过隐藏用户状态恢复探测智能体长期记忆

arXiv cs.CL ↗ · 23小时前缓存

MEMPROBE是一个基准，通过从智能体交互后的记忆中重建隐藏用户状态，来评估大语言模型智能体的长期记忆能力。

0 人收藏 0 人点赞

#llm-agents

ReM-MoA：推理记忆维持混合智能体扩展

arXiv cs.AI ↗ · 23小时前缓存

ReM-MoA 引入了一种记忆增强的混合智能体框架，通过排序推理记忆和策划的多样化记忆路由来维持扩展，在五个推理基准测试中优于之前的 MoA 变体。

0 人收藏 0 人点赞

#llm-agents

LemonHarness 技术报告

arXiv cs.AI ↗ · 23小时前缓存

本文介绍了 LemonHarness，一个面向长周期 LLM 智能体的集成执行框架。该框架将状态变更操作限制在清晰定义的 workspace 内，引入可复用的规则知识库，并增加了时间感知执行功能。在 Terminal-Bench 2.0 上实现了 84-86% 的准确率。

0 人收藏 0 人点赞

#llm-agents

Metis：桥接文本与代码记忆以实现自我进化智能体

arXiv cs.CL ↗ · 23小时前缓存

Metis 开展了一项对比文本记忆与代码记忆的受控研究，发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统，在 AppWorld 基准测试中，任务准确率最高提升 20.6%，执行成本最高降低 22.8%。

0 人收藏 0 人点赞

#llm-agents

我发布过的最可靠的数据代理，其 ~90% 是确定性代码。LLM 只负责解析意图和进行对话。不服来辩。

Reddit r/AI_Agents ↗ · 昨天

作者认为，AI 代理的可靠性来自于确定性代码，而非 LLM，并分享了在混乱的真实世界数据上构建可信代理的五项关键实践。

0 人收藏 0 人点赞

#llm-agents

逃离自我确认陷阱：面向智能体经验学习的执行-提炼-验证范式

Hugging Face Daily Papers ↗ · 2天前缓存

本文提出EDV框架，在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验，防止自我确认错误，并提升在长周期基准测试上的性能。

0 人收藏 0 人点赞

#llm-agents

Self-Harness: 自我改进的Harness

Hacker News Top ↗ · 2天前缓存

Self-Harness 提出了一种新范式，其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改，并通过回归测试验证这些修改，从而迭代地改进自身的运行框架，在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。

0 人收藏 0 人点赞

#llm-agents

@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客，涵盖了该领域10多个最新框架。以下是关键要点……链接……

X AI KOLs Timeline ↗ · 2天前缓存

一篇博客文章，总结了十个最新的智能体强化学习框架和最佳实践，涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。

0 人收藏 0 人点赞

#llm-agents

相同模型，相同提示词，4个不同的智能体

Reddit r/LocalLLaMA ↗ · 2天前

探讨了不同的智能体架构如何从相同的底层模型和提示词中产生不同的输出，强调了智能体设计对大型语言模型行为的影响。

0 人收藏 0 人点赞

#llm-agents

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则？答案令人不安。隐藏世界越复杂…

X AI KOLs Following ↗ · 2天前缓存

本文研究了LLM代理是否可以通过交互推断隐藏的世界模型，发现随着复杂性的增加，它们难以构建稳定的内部模型。

0 人收藏 0 人点赞

#llm-agents

当代理过早承诺：诊断LLM代理的过早承诺

Hugging Face Daily Papers ↗ · 3天前缓存

本文引入表征承诺，这是一种跨运行隐藏状态收敛，用于诊断LLM代理何时过早锁定了轨迹。研究表明，承诺预测轨迹一致性而非正确性，并提出了监控方法，用于检测代理何时自信地稳定下来，而不是假设一致性等于可信度。

0 人收藏 0 人点赞

#llm-agents

CLI-Universe：面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers ↗ · 3天前缓存

CLI-Universe是一个合成引擎，通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务，并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B，在Terminal-Bench 2.0上达到了33.4%，为参数量在32B及以下的开源模型树立了新的最优水平。

0 人收藏 0 人点赞

#llm-agents

Libretto：赋予LLM代理音乐结构感知

Hugging Face Daily Papers ↗ · 4天前缓存

Libretto提出了一种结构化框架，用于符号音乐生成与修改，采用LLM原生语法和经语料库校准的统计评估，涵盖多个音乐维度，使LLM代理能够将音乐视为可测量和可编辑的对象。

0 人收藏 0 人点赞

#llm-agents

PlanBench-XL：评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers ↗ · 4天前缓存

PlanBench-XL是一个新的基准测试，用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示，GPT-5.4在无阻断设置下仅达到51.9%的准确率，而在严重阻断条件下骤降至11.36%，凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞

#llm-agents

ScaffoldAgent: 基于效用引导的开放式深度研究动态大纲优化

arXiv cs.AI ↗ · 4天前缓存

ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架，用于开放式深度研究。通过扩展、收缩和修订操作，该框架改进了长文报告生成和事实依据的准确性。

0 人收藏 0 人点赞

#llm-agents

自主智能之道：自生成目标智能、具身主体性与自我的消解

arXiv cs.AI ↗ · 4天前缓存

本文探讨自主智能（autotelic AI），即智能体自主生成目标，并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。

0 人收藏 0 人点赞

#llm-agents

Multi-Agent Transactive Memory

arXiv cs.AI ↗ · 4天前缓存

提出了多智能体交易记忆（MATM）框架，用于在种群级别存储和检索智能体生成的轨迹，以提高任务性能并减少交互步骤，适用于ALFWorld和WebArena等交互环境。

0 人收藏 0 人点赞

llm-agents

提交意见反馈