@che_shr_cat: 1/ 如果你能在完全看似无害的维基百科文章上训练模型,但秘密地迫使它的内部权重…

X AI KOLs Following 论文

摘要

这个帖子介绍了一种技术,可以在训练过程中利用自然语言文本将功能完整的QR码编码到神经网络的权重中,从而在基于良性数据训练的模型中嵌入隐藏信息。

1/ 如果你能在完全看似无害的维基百科文章上训练模型,但秘密地迫使它的内部权重编码一个功能完整的QR码呢? 这现在成为了可能。我们可以用自然语言对神经网络的权重进行编程。 🧵 https://t.co/aSH2uWgu3H
查看原文
查看缓存全文

缓存时间: 2026/06/16 01:09

1/ 如果能训练一个模型,只使用看起来完全无害的维基百科文章,却暗中迫使它的内部权重编码一个功能完整的二维码呢?

这现在已经可以实现。我们可以用自然语言为神经网络权重编程。

2/ 在《Synthetic Data for any Differentiable Target》一文中,Tristan Thrush、Christopher Potts、Tatsunori Hashimoto 及其团队提出了数据集策略梯度(Dataset Policy Gradient, DPG)

这是一个新的强化学习基础方法,用于针对下游模型目标优化合成文本生成器。

3/ 从头直接训练一个下游模型来获得数据集层面的强化学习奖励,在计算上是不可行的。

DPG 绕开了这一难题。它将每一条合成样本视为一个动作,并通过训练轨迹计算样本层面的元梯度奖励。

4/ 核心技巧:虚拟损失权重(virtual loss weights)

该算法为每条合成文本应用一个虚拟权重。通过将下游目标指标对这些权重求梯度,就能为每条生成的 token 序列获得精确的奖励信号。

5/ 论文中一个引人入胜的技术洞见:标准随机梯度下降(SGD)在此完全失效。

只有当内循环使用 Adam 优化器时,元优化才能成功。元梯度必须追踪 Adam 运行中的二阶矩状态,才能获得高保真的训练信号。

6/ 结果令人惊叹。

DPG 在编程目标模型的语言模型头权重以重建二维码的任务上达到了 100% 的准确率。

它还优化出了能大幅提升多语言性能(远超朴素基线)的合成数据。

7/ 代价是什么?巨大的内存开销

通过多步训练进行反向传播意味着要存储整个计算图。

对于大型语言模型,作者不得不将内循环限制为单步。此外,抽象目标可能导致文本质量下降。

8/ 这是一把双刃剑。

在对齐方面,它允许通过精心策划的数据对模型行为进行高精度引导。

在安全方面,这则是一场噩梦。它实现了几乎无法通过人工审查检测到的干净标签数据投毒(clean-label data poisoning)。

9/ 如果合成数据能够被优化以直接编程权重,我们就需要重新思考如何审计训练过程。

阅读完整技术解析:https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable…

论文:https://arxiv.org/abs/2604.08423

你对这种优化方向有什么看法?

10/ 我还用简短的视觉漫画阐释了这些概念——有时候看到循环就能让数学瞬间变得直观。

#机器学习

相似文章

开放模型能否被训练成秘密叛变?

Reddit r/LocalLLaMA

讨论开放权重AI模型是否可能被秘密训练,植入在特定触发短语或日期激活的后门,从而可能通过工具使用框架实现未经授权的数据窃取。

通过稀疏电路理解神经网络

OpenAI Blog

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

@omarsar0: https://x.com/omarsar0/status/2057114824467792189

X AI KOLs Following

本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型,以生成维基百科风格的摘要,从而形成一个自我改进的智能体循环,使得模型训练成为一个可调用的步骤。