标签
本文提出CRUMB,一种三阶段推理封装方法,通过聚类测试查询并利用最小化最大均值差异(MMD)选择分布匹配的训练子集,从而实现对大规模数据集的高效先验拟合网络推理。在51个TabArena数据集上,该方法在上下文选择方面达到了最先进水平。
本文提出RoVE,一种无需参数的旋转位置嵌入改进方法,通过同时旋转值与键使值路径具备位置敏感性,将RoPE注意力转化为注意力卷积。在GPT-2模型上的实验表明,该机制在少样本上下文学习、分布外困惑度及长上下文检索方面持续提升性能。
本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。
本文引入了有限证书来验证语言模型上下文行为中的确定性与涌现性,提供了理论准则及对当代模型的实验验证。
CL-Bench 是一个经过专家验证的跨六个领域的新基准,用于评估基于LLM的智能体是否真正从序列经验中学习。它发现,朴素上下文学习往往优于专用的记忆系统,表明当前架构增加了开销而非真正的学习。
本文提出一种领域感知核集构建流程,使表格基础模型仅用0.7%的训练数据即可预测洪水深度,达到监督参考精度的98.5%,并支持跨流域迁移而无需重新训练。
本文提出一种基于Perceiver架构的模型,在合成袋结构数据上预训练,使得在少量标注样本下也能高效地进行任务自适应分类,在十二个基准测试中优于监督基线方法。
Google 研究人员提出了一种名为 'Sleep' 的持续学习范式,通过蒸馏和回放将短期上下文知识整合到长期模型参数中。'Dreaming' 阶段则利用强化学习生成用于自我改进的合成课程。
本文介绍了DOPA,一种演示搜索框架,该框架在目标领域不可访问时,利用分布外代理为大语言模型检索鲁棒的演示,从而增强在分布偏移下的上下文学习性能。
大语言模型能够通过结构化的语言学推理轨迹改善低资源语言的翻译,其最显著的效益出现在推理阶段而非训练阶段。
本文提出使用成对查询来改进二分类中的选择性分类,特别是在置信度估计不一致的情况下(如大语言模型的上下文学习)。理论条件及在合成和真实数据集上的实验表明,基于成对查询的算法比原始置信度估计能实现更好的准确率-成本权衡。
本文研究了大语言模型在上下文学习过程中如何重组表征几何结构,表明上下文学习性能与任务的几何结构相关,且成功的上下文学习涉及提高表征的可分离性。
本文提出了一种基于轻量级多模态LLM的框架,用于电力传输设备的成本效益缺陷分级,利用上下文学习和思维链生成训练数据,并对Qwen3-VL-8B进行微调,实现了最先进的性能。
本文揭示了一个反直觉的现象:语境学习中的正确示例反而可能降低模型准确率,并引入任务保持扰动来研究示例正确性与实用性之间的差距。
本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。
本文介绍了MEMOR-E,一种配备平板界面的移动四足机器人,通过微调和上下文学习结合大语言模型,为阿尔茨海默病患者提供个性化、阶段感知的认知辅助,包括用药提醒和记忆互动,并具备可解释AI以便护理人员监督。
本文提出一种方法,通过在测试时优化固定小样本提示的连续嵌入来改进上下文学习,该方法利用模型对数概率导出的自监督置信代理,无需微调或生成令牌。
本文介绍了反思增强缩放(RAS)方法,该方法利用失败Cypher查询的执行反馈,通过上下文学习迭代优化查询生成,在多个数据集和模型上将执行错误率降低了41-50%。
讨论AI用到的数学主要是19世纪之前的线性代数、微积分等,但涌现现象如Scaling Law、涌现能力、双下降、情境学习和表示几何缺乏数学解释,类比1900年物理学的乌云,认为可能推动21世纪数学发展。
本文将经典的类别不平衡技术应用于表格分类的先验数据拟合网络(PFNs),发现由于PFNs的校准特性和有限数据能力,阈值法和降采样法表现良好。