你现在到底在评估什么：提示词、上下文，还是整个框架？

Reddit r/AI_Agents 2026/06/23 22:35 新闻

evals prompts context harness ai-evaluation optimization

摘要

关于AI评估焦点的讨论，质疑从业者是在优化提示词、上下文还是整个框架，并指出正转向整体优化。

向关心评估的人提问。你现在主要想评估和优化什么？提示词？上下文？还是框架本身？我交谈的大多数人仍然将评估指向单个提示词。但我的看法是前沿已经转移：现在有趣的工作是闭环并优化整个上下文和/或框架，而不是孤立地调整提示词。有没有人已经在实践中这样做了？好奇你们的设置是什么样的，以及在哪些地方会出问题。

查看原文

相似文章

X AI KOLs Following

本文认为，AI智能体的性能更多地取决于控制层（harness）而不是仅靠提示词，并提出了自然语言智能体控制层，使得设计选择可检查且可移植。

X AI KOLs Timeline

本文深入解释AI领域评测框架（Harness）的重要性，分析DeepSeek自建Harness团队的战略意义，并对比了开源lm-evaluation-harness与自建系统的区别。

Reddit r/artificial

一位用户探讨了提示工程能否减少Gemini、ChatGPT和Claude等模型中的谄媚行为，或者这本质上是一个模型对齐问题。讨论涉及不同模型在处理分歧和客观批评时的差异。

Reddit r/AI_Agents

作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词，而忽视了完整的工作流程和智能体交互，并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。

X AI KOLs Following

Akshay Pachaar阐释了三个不同的AI工程概念——提示工程（消息）、上下文工程（记忆）和封装工程（机器）——解释了它们在构建基于LLM的智能体中的角色与相互作用，并附有一篇关于智能体封装工程的深入文章链接。