标签
一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。
Phase Marginalization是一种事后方法,通过评估结构化补丁网格相位并聚合输出来解决Vision Transformers中依赖于相位的不稳定性。与标准基线相比,它以最小的额外成本改善了分割、深度和局部匹配性能。
ECI_sem是一种无需训练的方法,通过使用冻结的嵌入对密集检索中的难负样本源进行排序,在MS MARCO和BEIR基准上取得了强性能。
本文提出了一种无需训练、仅使用CPU的检索方法,该方法将BM25词汇分数与后期交互密集分数相融合,用于会话记忆检索,在六个编码器上相比仅使用后期交互,在LoCoMo Hit@1上提升了高达+17.2个点。该研究提供了关于池化操作符、重排序器效果和基准鲁棒性的受控消融实验,将这种提升视为密集信号与词汇信号之间的分工。
本文提出了动态填充锚点(DIA),一种适用于扩散大语言模型的免训练方法。该方法通过动态估计终止锚点位置来强制执行格式约束(如可解析的 JSON、推理模板),同时避免了固定跨度方法的僵硬性。实验表明,DIA 在 GSM8K 和 MATH 基准测试上取得了显著的零样本性能提升。
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。
RhymeFlow通过跨帧解耦去噪轨迹来加速视频生成的扩散变换器,利用关键帧锚定和潜在轨迹投影减少计算开销,同时保持视觉质量。
PhaseLock是一个无需训练的框架,通过从早期步骤推理中保留运动先验来提高图像到视频扩散模型的物理一致性,以最小开销实现6.2个百分点的提升。
Fast-dLLM++ 引入了适用于扩散LLM的Fr\'{e}chet剖面解码,这是一种无需训练的方法,基于异构置信度剖面选择并行提交集。在LLaDA-8B模型的基准测试中,它实现了高达37%的吞吐量提升,同时保持可比的准确性。
WaveFilter提出了一种无需训练的小波引导KV缓存过滤框架,用于扩散大语言模型,通过精确识别关键令牌并构建稀疏缓存来增强长上下文能力,从而提升复杂长上下文任务的性能。
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
PlatonicNav 提出了一种免训练的具体化导航框架,该框架仅使用视觉语义地图和盲匹配来锚定语言目标,无需显式的跨模态训练即可实现跨任务和跨形态的泛化。
提出块级引导生成(Chunk-Level Guided Generation),一种无需训练的方法,利用现成LLM作为过程评分器,在小模型生成过程中选择固定长度的候选块,相比多数投票和PRM引导搜索,显著提升数学推理准确性。
SkillAdaptor是一种无需训练的步骤级技能自适应框架,具有显式的失败归因能力,适用于LLM智能体,在WebShop、PinchBench和Claw-Eval上提升了性能。
提出SERC,一种受LDPC码启发的无需训练的方法,通过将生成过程视为噪声信道,并利用稀疏验证查询与外部证据对比,来纠正大语言模型中的幻觉。
LVSA 为视频扩散模型引入了一种无训练稀疏注意力机制,将计算量减少高达 3.17 倍,同时能够在训练时长之外进行生成,且无质量损失。
Light Interaction 提出了一种用于交互式视频世界模型的无训练推理加速框架,采用自适应上下文管理、去噪缓存加速和3D块稀疏注意力,实现了高达2.59倍的速度提升,同时保持了有竞争力的视觉质量。
组提示(Group Prompting)引入了一种无训练框架,用于细胞实例分割,只需对每种细胞类型进行一次点击,利用Segment Anything Model的特征空间递归扩展提示,无需训练即可实现有竞争力的性能。
EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。