标签
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
本文提出了一种结合认知评价理论的 Task-Routed Mixture-of-Experts 模型用于隐式情感分析,通过引入辅助任务来改善从上下文中推理情感的能力,并优于现有方法。
本文提出了一种物理信息卷积编码器-解码器网络,用于从多孔介质几何结构预测孔隙尺度速度场,并证明使用网络预测初始化格子玻尔兹曼模拟可在超过90%的情况下加速收敛。
提出了一种基于块的雙解碼器(block-based double decoders),这是一种使用双重因果块注意力掩码的新型Transformer架构,结合了解码器仅训练效率与编码器-解码器推理效率,实现了强大的扩展性能并减少了KV缓存内存。
本文将组相对策略优化(GRPO)应用于编码器-解码器Seq2Seq模型,用于机器翻译微调,使用无需并行数据的无参考奖励(LaBSE和COMET-Kiwi),并在13种语言上取得了一致的改进。
NVIDIA采用了后期交互(一种稀疏注意力形式),用于基于注意力的编码器-解码器,以直接从内部表示中进行检索。
SAM 3D Body 是一个可提示的3D人体网格恢复模型,采用新颖的参数化表示(MHR)和编码器-解码器架构,实现了最先进的性能并具备强泛化能力。该模型支持辅助提示,并且是开源的。
Google 推出 T5Gemma,这是一组新的编码器-解码器模型,基于 Gemma 2 纯解码器架构改进而来,在摘要和翻译等任务上提供了更好的质量-效率权衡。