@che_shr_cat: 1/ 如果你能在完全看似无害的维基百科文章上训练模型，但秘密地迫使它的内部权重…

X AI KOLs Following 2026/06/14 09:31 论文

neural-networks qr-code weight-encoding adversarial-training natural-language security

摘要

这个帖子介绍了一种技术，可以在训练过程中利用自然语言文本将功能完整的QR码编码到神经网络的权重中，从而在基于良性数据训练的模型中嵌入隐藏信息。

1/ 如果你能在完全看似无害的维基百科文章上训练模型，但秘密地迫使它的内部权重编码一个功能完整的QR码呢？这现在成为了可能。我们可以用自然语言对神经网络的权重进行编程。 🧵 https://t.co/aSH2uWgu3H

查看原文

查看缓存全文

缓存时间: 2026/06/16 01:09

1/ 如果能训练一个模型，只使用看起来完全无害的维基百科文章，却暗中迫使它的内部权重编码一个功能完整的二维码呢？

这现在已经可以实现。我们可以用自然语言为神经网络权重编程。

2/ 在《Synthetic Data for any Differentiable Target》一文中，Tristan Thrush、Christopher Potts、Tatsunori Hashimoto 及其团队提出了数据集策略梯度（Dataset Policy Gradient, DPG）。

这是一个新的强化学习基础方法，用于针对下游模型目标优化合成文本生成器。

3/ 从头直接训练一个下游模型来获得数据集层面的强化学习奖励，在计算上是不可行的。

DPG 绕开了这一难题。它将每一条合成样本视为一个动作，并通过训练轨迹计算样本层面的元梯度奖励。

4/ 核心技巧：虚拟损失权重（virtual loss weights）。

该算法为每条合成文本应用一个虚拟权重。通过将下游目标指标对这些权重求梯度，就能为每条生成的 token 序列获得精确的奖励信号。

5/ 论文中一个引人入胜的技术洞见：标准随机梯度下降（SGD）在此完全失效。

只有当内循环使用 Adam 优化器时，元优化才能成功。元梯度必须追踪 Adam 运行中的二阶矩状态，才能获得高保真的训练信号。

6/ 结果令人惊叹。

DPG 在编程目标模型的语言模型头权重以重建二维码的任务上达到了 100% 的准确率。

它还优化出了能大幅提升多语言性能（远超朴素基线）的合成数据。

7/ 代价是什么？巨大的内存开销。

通过多步训练进行反向传播意味着要存储整个计算图。

对于大型语言模型，作者不得不将内循环限制为单步。此外，抽象目标可能导致文本质量下降。

8/ 这是一把双刃剑。

在对齐方面，它允许通过精心策划的数据对模型行为进行高精度引导。

在安全方面，这则是一场噩梦。它实现了几乎无法通过人工审查检测到的干净标签数据投毒（clean-label data poisoning）。

9/ 如果合成数据能够被优化以直接编程权重，我们就需要重新思考如何审计训练过程。

阅读完整技术解析：https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable…

论文：https://arxiv.org/abs/2604.08423

你对这种优化方向有什么看法？

10/ 我还用简短的视觉漫画阐释了这些概念——有时候看到循环就能让数学瞬间变得直观。

#机器学习

相似文章

开放模型能否被训练成秘密叛变？

Reddit r/LocalLLaMA

讨论开放权重AI模型是否可能被秘密训练，植入在特定触发短语或日期激活的后门，从而可能通过工具使用框架实现未经授权的数据窃取。

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

通道级语义扰动：面向多样训练范式的不可学习示例

arXiv cs.LG

本文系统研究了不同训练范式下的不可学习示例，揭示了预训练权重会削弱现有方法的效果，并提出浅层语义伪装（SSC）方法，通过在语义有效子空间中生成扰动来维持不可学习性。

Grokking Transformer中的权重衰减机制：廉价在线诊断

arXiv cs.LG

本文研究了权重衰减如何作为控制参数，使在模算术上训练的Transformer在记忆与泛化之间发生转变，并引入了两种基于注意力激活的廉价在线诊断指标，用以追踪这些动态。

@omarsar0: https://x.com/omarsar0/status/2057114824467792189

X AI KOLs Following

本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型，以生成维基百科风格的摘要，从而形成一个自我改进的智能体循环，使得模型训练成为一个可调用的步骤。