信任函数：通过学会何时信任弱教师实现近乎无损的弱到强泛化

Hugging Face Daily Papers 2026/05/31 00:00 论文

摘要

信任函数通过识别可靠的弱标签进行训练，实现近乎无损的弱到强泛化，在多个领域中达到与真实标签监督相当的性能。

弱到强泛化研究在可靠标签稀缺时，如何利用较弱教师的监督来改进强学生。我们主要将其视为一个数据选择问题，关键挑战在于识别哪些弱标签足够可靠以作为训练信号。为了解决这个问题，我们引入了信任函数，为每个弱标签分配一个标量信任分数，并利用这些分数过滤弱监督。在包括世界知识、定量推理和策略游戏等多个领域中，信任过滤产生的学生匹配甚至有时超越真实标签监督，实现了近乎无损的弱到强泛化。此外，信任函数实现了迭代的弱到强链，通过训练一个学生并将其重用作下一个教师来累积收益，从而放大效果。信任函数的优势可以归因于多种机制。

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:08

论文页面 - 信任函数：通过学会何时信任弱教师实现近乎无损的弱到强泛化

来源：https://huggingface.co/papers/2606.01000

摘要

信任函数通过识别可靠的弱标签进行训练，能够在多个领域实现与真实标注监督相当的性能，从而实现有效的弱到强泛化。

弱到强泛化（https://huggingface.co/papers?q=Weak-to-strong%20generalization）研究如何在缺乏可靠标签（https://huggingface.co/papers?q=reliable%20labels）的情况下，利用弱教师提供的监督来提升强学生模型。我们主要将其视为一个数据选择（https://huggingface.co/papers?q=data%20selection）问题，关键挑战在于识别哪些弱标签足以作为训练信号（https://huggingface.co/papers?q=training%20signal）。为此，我们引入了信任函数（https://huggingface.co/papers?q=trust%20functions），为每个弱标签分配一个标量信任分数，并利用这些分数过滤弱监督（https://huggingface.co/papers?q=weak%20supervision）。在多个领域（包括世界知识、定量推理和策略游戏）中，信任过滤使得学生模型能够匹配甚至超越真实标注监督，实现近乎无损的弱到强泛化（https://huggingface.co/papers?q=weak-to-strong%20generalization）。此外，信任函数（https://huggingface.co/papers?q=trust%20functions）还支持一种迭代的弱到强链条（https://huggingface.co/papers?q=iterative%20weak-to-strong%20chain），通过训练学生模型并将其作为下一轮的教师模型来叠加收益。信任函数（https://huggingface.co/papers?q=trust%20functions）的优势可归因于多种机制。

查看 arXiv 页面（https://arxiv.org/abs/2606.01000）查看 PDF（https://arxiv.org/pdf/2606.01000）项目页面（https://ardauzunoglu.github.io/trust-functions/）GitHub（https://github.com/ardauzunoglu/trust-functions）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.01000）

在您的智能体中获取此论文：

hf papers read 2606.01000

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。

引用此论文的数据集0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。

引用此论文的 Space0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以从该页面链接。

信任函数：通过学会何时信任弱教师实现近乎无损的弱到强泛化

论文页面 - 信任函数：通过学会何时信任弱教师实现近乎无损的弱到强泛化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

面向在线策略蒸馏的信任区域行为融合

大语言模型可信性无训练方法的系统研究

大语言模型何时能在弱监督下学会推理？

弱到强的泛化

Trust Region On-Policy Distillation

提交意见反馈