标签
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
本文研究了基于提示学习的方法来自动生成学术论文的亮点,使用了GPT-2、T5和ChatGPT等模型,并表明使用少量样本提示的ChatGPT在无需任务特定训练数据的情况下,其表现可与监督方法相媲美甚至更优。
VoidPadding引入了一个[VOID]标记来处理掩码扩散语言模型中的填充,使[EOS]能够仅专注于语义终止。该方法显著提升了推理和编码基准测试的性能,同时减少了解码步骤。
本文探讨了将gzip压缩算法用作语言模型的可行性,展示了压缩算法可以通过基于压缩长度对候选续文进行评分并利用束搜索来生成文本。
该推文说明了任何压缩工具(包括 gzip)都能被改装用于语言建模,而且 gzip 可以生成颇为类似莎士比亚风格的文本。并附有相关文章链接。
谷歌已开源DiffusionGemma,这是一种基于扩散的新型文本生成模型,采用块扩散和高效的编解码器技术,康奈尔大学的研究人员也做出了贡献。
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。
介绍了LEDE,一个利用离线强化学习动态选择退出层和推测长度的框架,用于LLM的自推测解码,相较于自回归解码实现了高达2.7倍的加速。
NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。
本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。
本文介绍了MiniGPT,这是一个基于PyTorch从头实现的紧凑型GPT风格自回归语言模型,其构建参考了nanoGPT的研究。该模型在Tiny Shakespeare数据集上使用字符级分词进行评估,在10.77M参数配置下达到了1.4780的验证损失。
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。