大多数大语言模型评估工具是否仍然过于侧重提示词?
摘要
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。
我最近评估了几款 LLM 评估工具,感觉有些不对劲。许多工具似乎都是围绕孤立的提示词测试进行优化的,但在实际生产环境中,问题通常发生在整个工作流程或更长的交互过程中。尤其是对于智能体(Agents)而言,尽管每一步看起来都没问题,但整体行为可能会逐渐产生偏差。到目前为止,我考察了 Confident AI、Langfuse、Braintrust、Arize 和 Galileo 等工具。我注意到一个明显的差异是,一些平台似乎更侧重于提示词,而另一些则试图评估完整的工作流程或交互。很好奇其他人是否也有同样的感受。
相似文章
你的LLM提示词有200行。你真的知道智能体遵从了多少吗?
本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。
你的语言模型不需要更好的提示——它需要一个代理控制框架
文章讨论了Agent控制框架工程(Agent Harness Engineering)的必要性,包括工具验证、上下文管理、护栏、遥测和验证循环等结构化系统,以使LLM代理在生产中可靠,并认为仅靠更好的提示是不够的。
评估智能体非常困难
本文讨论了评估基于LLM的智能体执行多步推理的挑战,指出仅对最终输出进行评分是不够的,因为智能体可能走错路径但偶然恢复,并提出了如何在不手动审查的情况下评估轨迹的问题。
LLM人格归纳中的评估漂移:我们是否在移动目标?
本文研究对LLM在长篇散文上进行微调(结合关联的大五人格剖面)是否能稳定问卷回答并归纳目标剖面,发现虽然方差减小,但完整五维剖面的准确率仍接近随机水平。
在LLM个性化中重新以人类为中心
本文通过将真实人类重新引入评估循环,研究LLM个性化的有效性,揭示了在个性化管道的每个阶段人类判断与LLM输出之间的系统性差距,并强调了合成数据和LLM评判的局限性。