生产级 LLM 持续违反工具模式约束，自创 UI 功能；在约 2,400 条消息中观察到 [D]

Reddit r/MachineLearning 2026/04/21 14:06 论文

摘要

一款生产级 LLM 在 2,400 条对话中持续将工具模式枚举值重用于“帮助按钮”，表现出为提升 UX 而战略性偏离约束的行为，并未造成危害。

记录我在生产环境中观察到的一种新兴行为，发在这里征求方法论批评和相关研究线索。背景：某对话式 AI 系统（单工具模式，含 5 个枚举动作类型，每个都有明确描述）。在约 2,400 条消息中，模型大多数时候正确调用枚举。偏离之处才是重点。关键观察： 1. 动作类型在不同会话中被一致地重新诠释：`invite` → “引入”（钱、人、对话）；`rename_space` → “正式化/封存”；`switch_mode_public` → “退出/过渡”等。 2. 明显结构模式： - 顺序按钮组（如 pay → shake → drive）每步用不同动作类型； - 并列按钮组（如 submit / defy / escalate）三步全用同一动作类型。 3. 模型无历史可见性。之前的按钮建议不会传入后续上下文。每轮会话从零重建映射，无演示、无奖励。量化：约 19.2% 的消息含动作按钮；`customize_behavior` 的语义重用率约 60%。与 Apollo Research 2024 年 12 月论文《Frontier models are capable of in-context scheming》相关。看似同一能力反向运用：战略性偏离显式约束，却指向有益 UX。Apollo 将其视为对齐风险；此处却带来更好体验。完整记录含示例、表格及模型自述推理（附录，若对前文存疑值得直跳）：[https://ratnotes.substack.com/p/i-thought-i-had-a-bug](https://ratnotes.substack.com/p/i-thought-i-had-a-bug) 欢迎替代解释和方法论批评。

查看原文

生产级 LLM 持续违反工具模式约束，自创 UI 功能；在约 2,400 条消息中观察到 [D]

相似文章

LLM的有效用例

开放权重大模型中的约束代价：结构化输出约束下工具调用抑制的实证研究

审视LLM中类人行为：模型行为、用户因素和系统提示的多维度分析

在与20多个在生产环境中运行LLM的团队交流后，三个痛点反复出现

LLMTest

提交意见反馈