多样本思维链上下文学习:让上下文学习真正学会

Hugging Face Daily Papers 论文

摘要

本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。

上下文学习(ICL)通过在提示中提供示例来使大型语言模型(LLMs)适应新任务,无需更新参数。借助长上下文模型,多样本ICL可以使用数十到数百个示例,并达到与微调相当的性能,然而目前对其扩展行为的理解主要来自非推理任务。我们研究用于推理的多样本思维链上下文学习(CoT-ICL),并发现标准的多样本规则并不适用。在非推理型和推理型LLM上,以及非推理和推理任务中,我们发现:(i) 场景依赖的扩展效应——增加CoT示例数量对于非推理型LLM不稳定,主要有利于推理型LLM;(ii) 基于相似性的检索在非推理任务上有效,但在推理任务上失效,因为语义相似性无法很好地预测过程(即CoT)兼容性;(iii) 顺序规模效应——性能方差随CoT示例增多而增大。我们将这些行为解释为将多样本CoT-ICL视为上下文测试时学习而非规模化的模式匹配,并提出两个原则:(i) 示例应易于目标模型理解;(ii) 示例排序应支持平滑的概念递进。基于这些原则,我们提出Curvilinear Demonstration Selection (CDS),一种简单的排序方法,在使用64个示例的几何问题中获得了高达5.42个百分点的性能提升。总体而言,我们的结果将长上下文窗口从检索缓冲重新构架为上下文测试时学习的结构化课程。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - Many-Shot CoT-ICL: 让上下文学习真正学会

来源:https://huggingface.co/papers/2605.13511
发布于5月13日

·


Cindy (https://huggingface.co/ttchungc) 于5月14日提交

摘要

对于推理任务,多示例上下文学习(Many-shot in-context learning)展现出与非推理任务不同的缩放行为,其中示例的顺序和选择会显著影响性能。

上下文学习(In-context learning, ICL)通过将提示中的示例作为条件,使大语言模型(Large Language Models, LLMs)适应新任务,而无需更新参数。借助长上下文模型,多示例ICL可使用数十到数百个示例,并达到与微调相当的性能,然而目前对其缩放行为的理解主要来自非推理任务。我们研究了多示例思维链上下文学习(Many-shot chain-of-thought in-context learning, CoT-ICL)在推理任务上的表现,发现标准的多示例规则并不适用。在非推理型和面向推理型LLM之间,以及非推理和推理任务之间,我们发现:(i)一种依赖于设定的缩放效应:增加CoT示例数量对非推理型LLM不稳定,主要有利于面向推理型LLM;(ii)基于相似性的检索有助于非推理任务,但在推理任务上失效,因为语义相似性难以预测过程(即CoT)兼容性;(iii)一种顺序缩放效应:随着CoT示例数量增加,性能方差会增大。我们将这些行为解释为:多示例CoT-ICL本质上是一种上下文测试时学习(in-context test-time learning)而非规模化的模式匹配,并提出了两条原则:(i)示例应易于目标模型理解,(ii)示例排序应支持平滑的概念递进。基于这些原则,我们提出了曲线演示选择(Curvilinear Demonstration Selection, CDS),一种简单的排序方法,在使用64个示例的几何任务上可获得高达5.42个百分点的提升。总体而言,我们的研究将长上下文窗口从检索缓冲区重新定义为一种用于上下文测试时学习的结构化课程。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13511)
查看 PDF (https://arxiv.org/pdf/2605.13511)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13511)

在你的 Agent 中获取这篇论文:

hf papers read 2605.13511

没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到这篇论文

在模型 README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到这篇论文

在数据集 README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接到这篇论文

在 Space README.md 中引用 arxiv.org/abs/2605.13511 即可从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

自改进的上下文学习

arXiv cs.CL

本文提出一种方法,通过在测试时优化固定小样本提示的连续嵌入来改进上下文学习,该方法利用模型对数概率导出的自监督置信代理,无需微调或生成令牌。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。