大多数大语言模型评估工具是否仍然过于侧重提示词?

Reddit r/AI_Agents 新闻

摘要

作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。

我最近评估了几款 LLM 评估工具,感觉有些不对劲。许多工具似乎都是围绕孤立的提示词测试进行优化的,但在实际生产环境中,问题通常发生在整个工作流程或更长的交互过程中。尤其是对于智能体(Agents)而言,尽管每一步看起来都没问题,但整体行为可能会逐渐产生偏差。到目前为止,我考察了 Confident AI、Langfuse、Braintrust、Arize 和 Galileo 等工具。我注意到一个明显的差异是,一些平台似乎更侧重于提示词,而另一些则试图评估完整的工作流程或交互。很好奇其他人是否也有同样的感受。
查看原文

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据

arXiv cs.CL

本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。