llm-agents

标签

Cards List
#llm-agents

@shao__meng: Perplexity 团队内部 Agent Skills 设计、迭代与维护之道 Perplexity Agents 团队的内部规范公开版,核心论点很反直觉:写 Skill 不是写代码,而是为模型构建上下文。把工程师写代码的本能直接套到 S…

X AI KOLs Timeline · 13小时前 缓存

Perplexity 团队公开了 Agent Skills 的设计、迭代与维护规范,强调 Skill 编写并非传统编码,而是为模型构建上下文。文章提出了以评测为先、渐进式加载及通过处理特例(Gotchas)来优化 Agent 行为的反直觉方法论。

0 人收藏 0 人点赞
#llm-agents

@DeRonin_: 我如何在两个文件中运行自动化内容引擎 1个 markdown 文件 = 我的知识库 1个 html 文件 = 我的仪表板 那就是整个技术栈 …

X AI KOLs Following · 15小时前

文章概述了一种创建个性化自动化内容引擎的方法:使用单个 Markdown 文件存储数据,并借助 Claude Agent 构建 HTML 仪表板,从而取代付费的 SaaS 工具。

0 人收藏 0 人点赞
#llm-agents

@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语:• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…

X AI KOLs Timeline · 昨天

RAO(递归智能体优化)是一种端到端强化学习方法,用于训练大语言模型智能体生成、协调并委托给自身的递归副本(这些副本本身也可以生成其他智能体),将递归推理转化为可学习的能力。

0 人收藏 0 人点赞
#llm-agents

@QingQ77: 30 个可跑的 Jupyter notebook,把 LLM 智能体的记忆技术从短到长、从简单到生产级全部讲透。 https://github.com/NirDiamant/Agent_Memory_Techniques… 这个仓库把 L…

X AI KOLs Timeline · 昨天 缓存

一个包含30个可运行Jupyter notebook的GitHub仓库,全面讲解LLM智能体记忆技术,从短期上下文到生产级模式,覆盖MemGPT、Zep、Graphiti等方法,并附有决策树和对比表。

0 人收藏 0 人点赞
#llm-agents

SkillRet:面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI · 昨天 缓存

本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞
#llm-agents

多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI · 昨天 缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞
#llm-agents

信念记忆:部分可观测性下的智能体记忆

arXiv cs.AI · 昨天 缓存

本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。

0 人收藏 0 人点赞
#llm-agents

代理式发现交换相关密度泛函

arXiv cs.AI · 昨天 缓存

本文提出了一种基于大语言模型的代理系统,用于自动化发现密度泛函理论中的交换相关泛函。该系统在性能上超越了人工设计的基线,同时也凸显了基准过拟合带来的挑战。

0 人收藏 0 人点赞
#llm-agents

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI · 昨天 缓存

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。

0 人收藏 0 人点赞
#llm-agents

MANTRA:为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准

arXiv cs.CL · 昨天 缓存

本文介绍了 MANTRA,这是一个从自然语言手册中自动综合生成经 SMT 验证的合规基准的框架,用于评估工具使用型 LLM 代理。研究表明,该方法能够实现对复杂程序规则遵循情况的可扩展且可靠的评估。

0 人收藏 0 人点赞
#llm-agents

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers · 3天前 缓存

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

0 人收藏 0 人点赞
#llm-agents

Skill1:通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers · 3天前 缓存

Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。

0 人收藏 0 人点赞
#llm-agents

SkillOS:面向自进化智能体的技能策展学习

Hugging Face Daily Papers · 3天前 缓存

本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。

0 人收藏 0 人点赞
#llm-agents

氛围编码与智能工程正变得比我预想中更接近

Simon Willison's Blog · 3天前 缓存

# 氛围编码与智能工程正变得比我预想中更接近 来源:[https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/](https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/) 2026年5月6日 我最近与 Joseph Ruscio 在 Heavybit 的 High Leverage 播客中讨论了 AI 编程工具: [Ep. #9, 与 Simon Willison 探讨 AI 编程范式转变](https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon

0 人收藏 0 人点赞
#llm-agents

ARIS:通过对抗性多智能体协作实现自主研究

Papers with Code Trending · 6天前 缓存

ARIS 是一个开源研究框架,利用跨模型的对抗性协作,通过协调执行、编排和保障层,确保长期研究结果的可靠性。

0 人收藏 0 人点赞
#llm-agents

超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索

Hugging Face Daily Papers · 2026-05-03 缓存

论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。

0 人收藏 0 人点赞
#llm-agents

LLM智能体可预测社交媒体反应但仍不敌文本分类器:基于1511人12万+人格的仿真准确性基准测试

arXiv cs.CL · 2026-04-23 缓存

大规模研究发现,LLM智能体以70.7%的准确率预测个人社交媒体反应,却仍落后于简单TF-IDF分类器,凸显其操控风险与政策模拟价值。

0 人收藏 0 人点赞
#llm-agents

@svpino:开源总有办法!这是一个面向 Mac 用户的开源、本地优先的 LLM 智能体记忆层

X AI KOLs Following · 2026-04-22 缓存

一个面向 macOS 的开源、本地优先的 LLM 智能体记忆层,可捕捉用户活动并保存为 Markdown 文件

0 人收藏 0 人点赞
#llm-agents

Mango:通过全局视图优化的多智能体网页导航

arXiv cs.CL · 2026-04-22 缓存

普渡大学研究团队推出 Mango,一种多智能体网页导航系统,利用全局站点结构和汤普森采样选择最优起始 URL,在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。

0 人收藏 0 人点赞
#llm-agents

SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准

Hugging Face Daily Papers · 2026-04-22 缓存

SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈