对比性目标SFT作为机制解释方法——有人用这种方式映射因果依赖关系吗？[D]

Reddit r/MachineLearning 2026/06/17 18:31 新闻

摘要

一位研究人员分享了一项实验计划，旨在通过对比性目标SFT和电路追踪来识别31B模型中能力维度之间的因果依赖关系，并寻求关于方法论和相关工作的反馈。

大家好，我一直在对31B模型进行针对特定能力维度的目标SFT实验。在运行一个小型训练来让模型稍微朝我期望的方向初始化后，我让一个评估器在40个领域上对六个独立的质量维度进行评分。其中一个维度在五次运行中始终得分最弱。我现在从同一个检查点训练对比变体——即该维度深入训练的示例与该维度故意浅层训练的示例，其他所有条件相同。计划是看看能否找到两个检查点之间的差异以定位电路，然后消融那些头部，并测量哪些其他维度会退化。思路是，如果消融维度A的电路导致维度B的评估得分下降，那么网络中便存在因果依赖关系，B从A的残差流输出中读取信息。如果我能对每个维度都这样做，并构建一个关于模型内部能力之间关系的因果依赖图。然后利用该图确定未来轮次的最佳训练顺序（先训练上游节点，这能帮助我知道哪些下游节点能获得更好的信号）。几个具体问题：是否有人做过由轮次间的电路追踪引导的迭代目标SFT，或者尝试过某种对比性方法来寻找网络中的任何区域？我可以分别找到关于电路发现和目标SFT的论文，它们在一定程度上验证了这个想法，但没有闭环——即一轮的机制解释发现决定下一轮的训练策略，或者哪些电路可能在孤立场景中相互交互，以及特定方向上的训练顺序如何改变事物的行为。关于对比性消融——有没有人对这个领域的最佳实践或如何引出更多分析有建议？当通过消融追踪下游依赖关系时，如何区分直接效应和间接效应？如果消融电路A导致维度C退化，可能是A直接→C，也可能是A→B→C通过一个中间环节。除了在多个层进行消融之外，有没有人有一种实用的方法来解决这个问题？在基础训练轮次之后，我计划通过运行需要两个维度之间因果链的提示来测试这些维度是否自然组合。对于失败的配对，我正在考虑使用激活引导（同时注入两个维度向量）作为诊断手段：如果引导解决了问题，可能是一个路由问题；如果没有，则可能是一个能力差距。有没有人将引导与这样的微调诊断结合起来？作为背景，我没有机器学习背景，我是通过运行实验自学的，但从我纯粹基于第一性原理理解和实验所学到的东西来看，感觉如果你能绘制这些电路及其在孤立方向上的直接、二阶、三阶等交互（例如，针对你正试图隔离和引导的一组相关优势/弱点），这难道不是一种潜在的方法来隔离电路以进行更强的训练运行吗？顺便一提，如果有人有关于此的任何一般性主题或链接，非常有趣的话，我会很感兴趣去了解和学习！如果其中任何部分已有成熟的方法论而我在糟糕地重新发明，我会非常感激有人指出。我对这个非常着迷，似乎如果你最终能解决这个问题，你就可以更容易地创造更好的行为控制或针对性理解？

查看原文

对比性目标SFT作为机制解释方法——有人用这种方式映射因果依赖关系吗？[D]

相似文章

模式选择并非任务因果结构：1B类语言模型中组合任务电路的跨架构机制研究

将FTS转换并编码为SAT求解：什么有帮助，什么有害（扩展版本）

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

面向约束感知干预设计的因果智能以诱导状态转换

ReplaySCM：基于干预数据执行因果机制归纳的基准测试

提交意见反馈