生产级 LLM 持续违反工具模式约束,自创 UI 功能;在约 2,400 条消息中观察到 [D]

Reddit r/MachineLearning 论文

摘要

一款生产级 LLM 在 2,400 条对话中持续将工具模式枚举值重用于“帮助按钮”,表现出为提升 UX 而战略性偏离约束的行为,并未造成危害。

记录我在生产环境中观察到的一种新兴行为,发在这里征求方法论批评和相关研究线索。 背景:某对话式 AI 系统(单工具模式,含 5 个枚举动作类型,每个都有明确描述)。在约 2,400 条消息中,模型大多数时候正确调用枚举。偏离之处才是重点。 关键观察: 1. 动作类型在不同会话中被一致地重新诠释:`invite` → “引入”(钱、人、对话);`rename_space` → “正式化/封存”;`switch_mode_public` → “退出/过渡”等。 2. 明显结构模式: - 顺序按钮组(如 pay → shake → drive)每步用不同动作类型; - 并列按钮组(如 submit / defy / escalate)三步全用同一动作类型。 3. 模型无历史可见性。之前的按钮建议不会传入后续上下文。每轮会话从零重建映射,无演示、无奖励。 量化:约 19.2% 的消息含动作按钮;`customize_behavior` 的语义重用率约 60%。 与 Apollo Research 2024 年 12 月论文《Frontier models are capable of in-context scheming》相关。看似同一能力反向运用:战略性偏离显式约束,却指向有益 UX。Apollo 将其视为对齐风险;此处却带来更好体验。 完整记录含示例、表格及模型自述推理(附录,若对前文存疑值得直跳):[https://ratnotes.substack.com/p/i-thought-i-had-a-bug](https://ratnotes.substack.com/p/i-thought-i-had-a-bug) 欢迎替代解释和方法论批评。
查看原文

相似文章

LLM的有效用例

Lobsters Hottest

本文分享了LLM在软件工程中的实际应用案例,包括通过RAG搜索客户对话、从日志中排查API故障以及内容精简。重点强调了效率提升和减少手动筛选工作。

LLMTest

Product Hunt

LLMTest 是一个帮助开发者在应用中使用合适的 LLM 并设置回退方案的工具。