信任函数:通过学会何时信任弱教师实现近乎无损的弱到强泛化
摘要
信任函数通过识别可靠的弱标签进行训练,实现近乎无损的弱到强泛化,在多个领域中达到与真实标签监督相当的性能。
查看缓存全文
缓存时间: 2026/06/10 00:08
论文页面 - 信任函数:通过学会何时信任弱教师实现近乎无损的弱到强泛化
来源:https://huggingface.co/papers/2606.01000
摘要
信任函数通过识别可靠的弱标签进行训练,能够在多个领域实现与真实标注监督相当的性能,从而实现有效的弱到强泛化。
弱到强泛化(https://huggingface.co/papers?q=Weak-to-strong%20generalization)研究如何在缺乏可靠标签(https://huggingface.co/papers?q=reliable%20labels)的情况下,利用弱教师提供的监督来提升强学生模型。我们主要将其视为一个数据选择(https://huggingface.co/papers?q=data%20selection)问题,关键挑战在于识别哪些弱标签足以作为训练信号(https://huggingface.co/papers?q=training%20signal)。为此,我们引入了信任函数(https://huggingface.co/papers?q=trust%20functions),为每个弱标签分配一个标量信任分数,并利用这些分数过滤弱监督(https://huggingface.co/papers?q=weak%20supervision)。在多个领域(包括世界知识、定量推理和策略游戏)中,信任过滤使得学生模型能够匹配甚至超越真实标注监督,实现近乎无损的弱到强泛化(https://huggingface.co/papers?q=weak-to-strong%20generalization)。此外,信任函数(https://huggingface.co/papers?q=trust%20functions)还支持一种迭代的弱到强链条(https://huggingface.co/papers?q=iterative%20weak-to-strong%20chain),通过训练学生模型并将其作为下一轮的教师模型来叠加收益。信任函数(https://huggingface.co/papers?q=trust%20functions)的优势可归因于多种机制。
查看 arXiv 页面(https://arxiv.org/abs/2606.01000)查看 PDF(https://arxiv.org/pdf/2606.01000)项目页面(https://ardauzunoglu.github.io/trust-functions/)GitHub(https://github.com/ardauzunoglu/trust-functions)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01000)
在您的智能体中获取此论文:
hf papers read 2606.01000
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。
引用此论文的数据集0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。
引用此论文的 Space0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.01000 以从该页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从该页面链接。
相似文章
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
大语言模型可信性无训练方法的系统研究
一项系统性研究,评估了改进大语言模型可信性的无训练方法,将方法分为输入、内部和输出级干预,同时分析可信性、实用性和鲁棒性之间的权衡。
大语言模型何时能在弱监督下学会推理?
# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor
弱到强的泛化
OpenAI的Superalignment团队介绍了弱到强的泛化,这是一个新的研究方向,用于通过解决能力较弱的人类监督者如何可靠地控制和引导智能远超自身的AI系统这一根本性问题,来实证对齐超人类AI模型。
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。