来自 HuggingFace 的文章
本文介绍了 MiA-Signature,这是一种大语言模型(LLM)中全局激活模式的压缩表示,旨在提升长上下文理解能力。该方法提出使用基于次模性的选择策略来近似完整的激活状态,从而在检索增强生成(RAG)和智能体系统中带来性能提升。
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
本文提出了 MMDG-Bench,这是一个针对多模态域泛化的统一基准,揭示了当前方法进展有限,并且在不同任务中存在显著的鲁棒性挑战。
本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。
ServiceNow 工程师详细介绍了他们从 vLLM V0 迁移到 V1 的过程,重点解决了后端正确性问题,包括 logprob 语义和运行时默认值,以确保强化学习训练动态的稳定。
Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。
本文介绍生成式量子启发柯尔莫哥洛夫-阿诺德本征求解器(GQKAE),一种参数高效架构,用柯尔莫哥洛夫-阿诺德模块替代传统神经网络组件,显著降低内存使用并改善量子化学模拟中的收敛性。
KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。
Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。
本文介绍了 StableI2I,这是一种无需参考图像的评估框架,用于评估图像到图像生成任务中的内容保真度和一致性。此外,本文还提出了 StableI2I-Bench,一个用于评估多模态语言模型在这些评估任务上表现的基准。
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
PhysForge 是一个两阶段框架,能够生成具备物理基础和运动学参数的交互式 3D 资产,解决了虚拟世界中静态几何模型带来的瓶颈问题。
本文介绍了上下文稀疏注意力(ISA),这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性,在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
本文提出了“并行交错推理(Side-by-Side Interleaved Reasoning)”方法,通过控制自回归模型中的信息揭示时机,以提高准确性和效率。实验表明,在使用 Qwen3 模型的基准测试中,通过将私密推理与部分信息披露相结合,模型性能得到了提升。