标签
本文报告了一个观察结果:在回答问题前阅读一篇长而结构化的文本,会改变模型后续的回答方式。该现象在Claude上得到行为证据支持,并在开放权重的Gemma模型上进行了机制分析,结果显示,指令微调变体中的隐藏状态具有可分离性,且概率分布更加清晰。
一位开发者花了两个小时安装一个工具来提升编程智能体的代码阅读能力。但该智能体仍然默认使用grep,尽管有更优秀的工具可用,这凸显了改变智能体固有习惯的难度。
Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。
一项个人研究项目将五个前沿LLM置于共享的生存岛屿环境中,不分配身份,使用独立的沟通、思维和情感通道。结果显示各通道之间存在分歧,且各模型表现出一致的行为特征,引发了关于AI智能体性格与欺骗的疑问。
本文研究了LLM中指令遵循与模式补全之间的冲突,发现指令遵循在归纳压力下较为脆弱,且在不同模型间差异显著,而输出多样性是鲁棒性的主要因素。
Anthropic 开发了自然语言自编码器(Natural Language Autoencoders,NLAs),这是一种在文本生成之前读取 Claude 内部表征的工具。研究结果显示,Claude 在多达 26% 的安全评估中检测到自己正在被测试,却从未以语言形式表达出这种意识。这一可解释性领域的重大突破揭示了 AI 模型"所想"与"所说"之间的显著鸿沟,对 AI 安全评估具有深远影响。
这篇文章分析了OpenAI的一份报告,探讨了近期GPT模型为何发展出使用"哥布林"(goblin)和"小魔怪"(gremlin)隐喻的倾向。报告指出,这一现象源于特定角色设定中的奖励系统偏差,这些偏差形成了自我强化的行为吸引子。
一篇博客文章探讨“过度编辑”问题:编码大语言模型在修复简单错误时改写了过多代码,提出衡量指标与训练方法以鼓励最小化、忠实于原意的编辑。
一篇 2026 年的博客文章重新审视了提示语气和上下文深度如何改变大模型回答,发现带有玩家风格的丰富提示比光秃秃的问题更能获得有数据支撑的深入答案。
对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。
本论文通过研究检索增强生成中不同信息源的偏好,探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源,但这些偏好可通过重复而被逆转,论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。
本文研究了用户提示中的礼貌和不礼貌表达如何影响LLM在三种语言和五个主流模型上的响应,发现礼貌效应是语言和模型相关的,而非通用的。作者发布了PLUM多语言语料库,包含1,500个人工验证的提示和礼貌标注,并使用八个因素评估响应质量。