joint-embedding

标签

Cards List
#joint-embedding

DLLM-JEPA:面向掩码扩散语言模型的联合嵌入预测架构

arXiv cs.CL · 2天前 缓存

介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈