llm-agents

#llm-agents

@shao__meng: Perplexity 团队内部 Agent Skills 设计、迭代与维护之道 Perplexity Agents 团队的内部规范公开版，核心论点很反直觉：写 Skill 不是写代码，而是为模型构建上下文。把工程师写代码的本能直接套到 S…

X AI KOLs Timeline ↗ · 13小时前缓存

Perplexity 团队公开了 Agent Skills 的设计、迭代与维护规范，强调 Skill 编写并非传统编码，而是为模型构建上下文。文章提出了以评测为先、渐进式加载及通过处理特例（Gotchas）来优化 Agent 行为的反直觉方法论。

0 人收藏 0 人点赞

#llm-agents

@DeRonin_: 我如何在两个文件中运行自动化内容引擎 1个 markdown 文件 = 我的知识库 1个 html 文件 = 我的仪表板那就是整个技术栈 …

X AI KOLs Following ↗ · 15小时前

文章概述了一种创建个性化自动化内容引擎的方法：使用单个 Markdown 文件存储数据，并借助 Claude Agent 构建 HTML 仪表板，从而取代付费的 SaaS 工具。

0 人收藏 0 人点赞

#llm-agents

@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语：• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…

X AI KOLs Timeline ↗ · 昨天

RAO（递归智能体优化）是一种端到端强化学习方法，用于训练大语言模型智能体生成、协调并委托给自身的递归副本（这些副本本身也可以生成其他智能体），将递归推理转化为可学习的能力。

0 人收藏 0 人点赞

#llm-agents

@QingQ77: 30 个可跑的 Jupyter notebook，把 LLM 智能体的记忆技术从短到长、从简单到生产级全部讲透。 https://github.com/NirDiamant/Agent_Memory_Techniques… 这个仓库把 L…

X AI KOLs Timeline ↗ · 昨天缓存

一个包含30个可运行Jupyter notebook的GitHub仓库，全面讲解LLM智能体记忆技术，从短期上下文到生产级模式，覆盖MemGPT、Zep、Graphiti等方法，并附有决策树和对比表。

0 人收藏 0 人点赞

#llm-agents

SkillRet：面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI ↗ · 昨天缓存

本文提出了 SkillRet，这是一个用于评估 LLM 智能体技能检索的大规模基准，旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset，并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞

#llm-agents

多并非总是更好：大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI ↗ · 昨天缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设，通过系统实验证明，跨组件干扰往往会导致性能下降。研究发现，在各种模型规模下，更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞

#llm-agents

信念记忆：部分可观测性下的智能体记忆

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 BeliefMem，一种专为大语言模型（LLM）智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题，并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示，该方法优于确定性基线模型。

0 人收藏 0 人点赞

#llm-agents

代理式发现交换相关密度泛函

arXiv cs.AI ↗ · 昨天缓存

本文提出了一种基于大语言模型的代理系统，用于自动化发现密度泛函理论中的交换相关泛函。该系统在性能上超越了人工设计的基线，同时也凸显了基准过拟合带来的挑战。

0 人收藏 0 人点赞

#llm-agents

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI ↗ · 昨天缓存

本文介绍了“恒定上下文技能学习”，这是一种将程序性知识从提示词迁移到模型权重中的框架，旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色，同时显著降低了推理成本。

0 人收藏 0 人点赞

#llm-agents

MANTRA：为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 MANTRA，这是一个从自然语言手册中自动综合生成经 SMT 验证的合规基准的框架，用于评估工具使用型 LLM 代理。研究表明，该方法能够实现对复杂程序规则遵循情况的可扩展且可靠的评估。

0 人收藏 0 人点赞

#llm-agents

StraTA：通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers ↗ · 3天前缓存

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法，通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制，在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

0 人收藏 0 人点赞

#llm-agents

Skill1：通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers ↗ · 3天前缓存

Skill1 是一个统一框架，通过共享的任务结果目标，训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明，该框架在复杂任务环境中优于现有的基线方法。

0 人收藏 0 人点赞

#llm-agents

SkillOS：面向自进化智能体的技能策展学习

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 SkillOS，这是一种强化学习框架，使大型语言模型智能体能够学习用于自进化的长期技能策展策略，从而提升任务性能与泛化能力。

0 人收藏 0 人点赞

#llm-agents

# 氛围编码与智能工程正变得比我预想中更接近来源：[https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/](https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/) 2026年5月6日我最近与 Joseph Ruscio 在 Heavybit 的 High Leverage 播客中讨论了 AI 编程工具： [Ep. #9, 与 Simon Willison 探讨 AI 编程范式转变](https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon

0 人收藏 0 人点赞

#llm-agents