llm-agents

标签

Cards List
#llm-agents

我发布过的最可靠的数据代理,其 ~90% 是确定性代码。LLM 只负责解析意图和进行对话。不服来辩。

Reddit r/AI_Agents · 2小时前

作者认为,AI 代理的可靠性来自于确定性代码,而非 LLM,并分享了在混乱的真实世界数据上构建可信代理的五项关键实践。

0 人收藏 0 人点赞
#llm-agents

@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客,涵盖了该领域10多个最新框架。以下是关键要点……链接……

X AI KOLs Timeline · 昨天 缓存

一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。

0 人收藏 0 人点赞
#llm-agents

相同模型,相同提示词,4个不同的智能体

Reddit r/LocalLLaMA · 昨天

探讨了不同的智能体架构如何从相同的底层模型和提示词中产生不同的输出,强调了智能体设计对大型语言模型行为的影响。

0 人收藏 0 人点赞
#llm-agents

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则?答案令人不安。隐藏世界越复杂…

X AI KOLs Following · 昨天 缓存

本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。

0 人收藏 0 人点赞
#llm-agents

当代理过早承诺:诊断LLM代理的过早承诺

Hugging Face Daily Papers · 昨天 缓存

本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。

0 人收藏 0 人点赞
#llm-agents

CLI-Universe:面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers · 昨天 缓存

CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。

0 人收藏 0 人点赞
#llm-agents

Libretto:赋予LLM代理音乐结构感知

Hugging Face Daily Papers · 2天前 缓存

Libretto提出了一种结构化框架,用于符号音乐生成与修改,采用LLM原生语法和经语料库校准的统计评估,涵盖多个音乐维度,使LLM代理能够将音乐视为可测量和可编辑的对象。

0 人收藏 0 人点赞
#llm-agents

PlanBench-XL:评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers · 2天前 缓存

PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞
#llm-agents

ScaffoldAgent: 基于效用引导的开放式深度研究动态大纲优化

arXiv cs.AI · 3天前 缓存

ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。

0 人收藏 0 人点赞
#llm-agents

自主智能之道:自生成目标智能、具身主体性与自我的消解

arXiv cs.AI · 3天前 缓存

本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。

0 人收藏 0 人点赞
#llm-agents

Multi-Agent Transactive Memory

arXiv cs.AI · 3天前 缓存

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。

0 人收藏 0 人点赞
#llm-agents

面向AI辅助法律发现的Human-on-the-Loop编排

arXiv cs.AI · 3天前 缓存

本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。

0 人收藏 0 人点赞
#llm-agents

ORAgentBench:LLM代理能否端到端解决具有挑战性的运筹学任务?

arXiv cs.AI · 3天前 缓存

本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。

0 人收藏 0 人点赞
#llm-agents

面向LLM Agent澄清请求的不确定性分解

arXiv cs.AI · 3天前 缓存

本文针对LLM Agent提出了一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估,显示出显著改进。

0 人收藏 0 人点赞
#llm-agents

@dair_ai:关于LLM智能体长期记忆的优秀论文。(收藏)粗粒度的摘要会偏移,无约束的更新会导致信息损坏,……

X AI KOLs Following · 4天前 缓存

AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。

0 人收藏 0 人点赞
#llm-agents

CalVerT:使用校准验证器遥测增强智能体,改善知识密集型任务中的行动与学习

Hugging Face Daily Papers · 4天前 缓存

CalVerT 为 LLM 智能体引入了校准验证器遥测,提供置信度和基础分数,以减少过度检索和无依据的答案,提升知识密集型问答任务的性能。

0 人收藏 0 人点赞
#llm-agents

令牌压缩幻象:为什么我对RTK持怀疑态度

Hacker News Top · 5天前 缓存

本文批评了RTK,一种用于LLM代理的令牌压缩工具,认为其声称的60-90%成本节省具有误导性,引入了静默失败风险,缺乏严格的准确性基准,并且作为独立产品在结构上脆弱。

0 人收藏 0 人点赞
#llm-agents

缓解基于LLM的智能体中的锚定偏差以实现节能6G自治网络

arXiv cs.AI · 5天前 缓存

本文提出了一种随机锚定策略,用于缓解基于LLM的智能体中的锚定偏差,以实现节能的6G自治网络,使用轻量级1B参数模型实现了高达25%的节能。

0 人收藏 0 人点赞
#llm-agents

LLMZero:通过LLM智能体发现强化学习后训练的自适应训练策略

arXiv cs.LG · 5天前 缓存

LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索,发现用于强化学习后训练的自适应多参数过渡策略,该策略在多种任务中优于固定调度和网格搜索。

0 人收藏 0 人点赞
#llm-agents

将搜索与推理解耦:一种供应商无关的LLM智能体接地架构

arXiv cs.AI · 5天前 缓存

本文介绍了去耦搜索接地(DSG)——一种供应商无关的架构,它将搜索检索与LLM推理分离,从而能够对提供商路由、缓存和输出合约进行显式控制。实验表明,DSG在成本降低91%和延迟降低68%的情况下,几乎达到了原生搜索的准确率。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈