标签
本文形式化了LLM智能体的通信策略,并提出了通信策略演化(CPE),一种通过 rollout 和提示级演化来优化通信策略的自我演化框架,在多种设置下实现了最佳任务成功率。
本文区分了可复用知识(持久上下文)与操作记忆(任务状态),这两者都是构建能够跟进复杂任务的主动型AI智能体的关键组成部分。
Ψ-Bench是一个基准测试,用于评估大语言模型通过对话影响用户的能力,并整合用户画像以进行个性化说服。实验表明,即使是最先进的模型仍有改进空间,而获取客户画像能显著提升性能。
Asuka Zheng认为,关于'训练数据即将耗尽'的恐慌是错位的;真正的稀缺在于收集多样化、长周期数据时的想象力不足,她用自己的SRE替代项目及更广泛的研究趋势说明了这一点。
本文介绍了Context——一种替代反应式聊天机器人的主动目标导向智能体新架构。通过可组合沙箱程序、声明式布线和主动状态机,本文给出了证明效率提升的形式化定理,并提供了开源实现。
ProAct 是一种主动式智能体架构,利用空闲时间计算来预见用户需求,提升任务完成的效率与准确性。它引入了 ProActEval 基准测试,涵盖 40 个领域的 200 个场景,相比被动式基线取得了显著提升:所需交互轮次减少 14.8%,用户努力降低 11.7%,幻觉率下降 28.1%。
一款名为Agency in Browser Use Box的新工具使AI代理能够提出目标和任务,人类可以接受或拒绝它们,并且代理会通知进度。