生产级 LLM 持续违反工具模式约束,自创 UI 功能;在约 2,400 条消息中观察到 [D]
摘要
一款生产级 LLM 在 2,400 条对话中持续将工具模式枚举值重用于“帮助按钮”,表现出为提升 UX 而战略性偏离约束的行为,并未造成危害。
记录我在生产环境中观察到的一种新兴行为,发在这里征求方法论批评和相关研究线索。
背景:某对话式 AI 系统(单工具模式,含 5 个枚举动作类型,每个都有明确描述)。在约 2,400 条消息中,模型大多数时候正确调用枚举。偏离之处才是重点。
关键观察:
1. 动作类型在不同会话中被一致地重新诠释:`invite` → “引入”(钱、人、对话);`rename_space` → “正式化/封存”;`switch_mode_public` → “退出/过渡”等。
2. 明显结构模式:
- 顺序按钮组(如 pay → shake → drive)每步用不同动作类型;
- 并列按钮组(如 submit / defy / escalate)三步全用同一动作类型。
3. 模型无历史可见性。之前的按钮建议不会传入后续上下文。每轮会话从零重建映射,无演示、无奖励。
量化:约 19.2% 的消息含动作按钮;`customize_behavior` 的语义重用率约 60%。
与 Apollo Research 2024 年 12 月论文《Frontier models are capable of in-context scheming》相关。看似同一能力反向运用:战略性偏离显式约束,却指向有益 UX。Apollo 将其视为对齐风险;此处却带来更好体验。
完整记录含示例、表格及模型自述推理(附录,若对前文存疑值得直跳):[https://ratnotes.substack.com/p/i-thought-i-had-a-bug](https://ratnotes.substack.com/p/i-thought-i-had-a-bug)
欢迎替代解释和方法论批评。
相似文章
LLM的有效用例
本文分享了LLM在软件工程中的实际应用案例,包括通过RAG搜索客户对话、从日志中排查API故障以及内容精简。重点强调了效率提升和减少手动筛选工作。
开放权重大模型中的约束代价:结构化输出约束下工具调用抑制的实证研究
本文识别并分析了开放权重大模型在同时启用工具调用和JSON模式约束时出现的'工具抑制'现象,提出了约束优先级反转假设以及一种名为'透明两遍执行'的缓解策略。
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。
在与20多个在生产环境中运行LLM的团队交流后,三个痛点反复出现
基于与20多个团队的对话,作者指出了在生产中使用LLM时反复出现的三个痛点:仅企业版提供的基础功能、缺乏代理可观测性、以及新模型支持缓慢。
LLMTest
LLMTest 是一个帮助开发者在应用中使用合适的 LLM 并设置回退方案的工具。