Signals:无需 LLM 评审即可找出最具信息量的智能体轨迹 [R]

Reddit r/MachineLearning 论文

摘要

Katanemo Labs 推出了 'Signals',这是一种轻量级方法,可在不使用 LLM 评审或 GPU 的情况下识别出具有高信息量的智能体轨迹,从而在轨迹分析中实现更高的效率。

大家好,我是 Salman,来自 Katanemo Labs(DigitalOcean 旗下公司),Shuguang 和 Adil 也在这里。想介绍一下我们关于智能体系统的最新研究——Signals。如果你一直在构建智能体,你可能已经注意到,需要人工逐一审查的智能体轨迹/路径实在太多,而使用人类或额外的 LLM 调用来检查所有轨迹的成本会迅速攀升。该论文提出了一种轻量级的方法,用于从实时智能体交互中计算结构化的“信号”,从而让你能够找出最值得关注的那些轨迹,同时无需改变智能体在线运行时的行为。计算 Signals 不需要 GPU。Signals 被归类为一个简单的分类体系,涵盖交互、执行和环境模式,包括诸如目标不一致(misalignment)、停滞(stagnation)、脱离(disengagement)、失败(failure)、循环(looping)以及资源耗尽(exhaustion)等情况。在 τ-bench 的标注研究中,基于信号的采样达到了 82% 的信息量比率,而随机采样仅为 54%,这意味着每条高信息量轨迹的效率提升了 1.52 倍。 论文:arXiv 2604.00356。[https://arxiv.org/abs/2604.00356](https://arxiv.org/abs/2604.00356) 已实现 Signals 的项目:[https://github.com/katanemo/plano](https://github.com/katanemo/plano) 欢迎大家就分类体系、实现细节或其局限性提出问题。
查看原文

相似文章

QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架

Papers with Code Trending

QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。

TRACER:基于追踪的自适应成本高效路由用于LLM分类

Hugging Face Daily Papers

TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。

TradingAgents:多智能体 LLM 金融交易框架

Papers with Code Trending

本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Hugging Face Daily Papers

# Paper page - PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors Source: [https://huggingface.co/papers/2605.06455](https://huggingface.co/papers/2605.06455) ## Abstract PrefixGuard enables effective online monitoring of LLM agents through trace analysis and prefix\-based risk scoring, demonstrating strong performance across multiple benchmark tasks while providing diagnostic insights for alert reliability\. Large language model \(LLM\) agents now execute long, tool\-using ta