多样本思维链上下文学习:让上下文学习真正学会
摘要
本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - Many-Shot CoT-ICL: 让上下文学习真正学会
来源:https://huggingface.co/papers/2605.13511
发布于5月13日
·
由
Cindy (https://huggingface.co/ttchungc) 于5月14日提交
摘要
对于推理任务,多示例上下文学习(Many-shot in-context learning)展现出与非推理任务不同的缩放行为,其中示例的顺序和选择会显著影响性能。
上下文学习(In-context learning, ICL)通过将提示中的示例作为条件,使大语言模型(Large Language Models, LLMs)适应新任务,而无需更新参数。借助长上下文模型,多示例ICL可使用数十到数百个示例,并达到与微调相当的性能,然而目前对其缩放行为的理解主要来自非推理任务。我们研究了多示例思维链上下文学习(Many-shot chain-of-thought in-context learning, CoT-ICL)在推理任务上的表现,发现标准的多示例规则并不适用。在非推理型和面向推理型LLM之间,以及非推理和推理任务之间,我们发现:(i)一种依赖于设定的缩放效应:增加CoT示例数量对非推理型LLM不稳定,主要有利于面向推理型LLM;(ii)基于相似性的检索有助于非推理任务,但在推理任务上失效,因为语义相似性难以预测过程(即CoT)兼容性;(iii)一种顺序缩放效应:随着CoT示例数量增加,性能方差会增大。我们将这些行为解释为:多示例CoT-ICL本质上是一种上下文测试时学习(in-context test-time learning)而非规模化的模式匹配,并提出了两条原则:(i)示例应易于目标模型理解,(ii)示例排序应支持平滑的概念递进。基于这些原则,我们提出了曲线演示选择(Curvilinear Demonstration Selection, CDS),一种简单的排序方法,在使用64个示例的几何任务上可获得高达5.42个百分点的提升。总体而言,我们的研究将长上下文窗口从检索缓冲区重新定义为一种用于上下文测试时学习的结构化课程。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13511)
查看 PDF (https://arxiv.org/pdf/2605.13511)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13511)
在你的 Agent 中获取这篇论文:
hf papers read 2605.13511
没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到这篇论文
在模型 README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到这篇论文
在数据集 README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。
引用此论文的 Space0
没有 Space 链接到这篇论文
在 Space README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
ACIL: 用于上下文学习的自动Chain-of-Thought
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
自改进的上下文学习
本文提出一种方法,通过在测试时优化固定小样本提示的连续嵌入来改进上下文学习,该方法利用模型对数概率导出的自监督置信代理,无需微调或生成令牌。
大语言模型在上下文学习中重组表征几何结构
本文研究了大语言模型在上下文学习过程中如何重组表征几何结构,表明上下文学习性能与任务的几何结构相关,且成功的上下文学习涉及提高表征的可分离性。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。