标签
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
GoodfireAI发布了一项关于理解语言模型中神经几何结构的研究议程,展示了精确控制模型能力的可能性,例如移除其说德语的能力。
本文介绍了VGB,一种带有概率回溯的过程引导采样算法,通过鲁棒地处理验证器错误,显著提升了小型0.5B模型的编码性能。
NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一种基于扩散的语言模型,采用逐块自回归扩散方法,通过对令牌块进行迭代去噪来生成文本,实现了自回归基线 2.42 倍的生成吞吐量,同时保留了基准测试质量 98.7% 的水平。
本文介绍了一种原子语言模型,它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器,原生处理多模态材料数据,实现了最先进的晶体结构预测和从头生成。
一篇批评性分析Qwen-AgentWorld论文的优质推文串,该论文提出面向通用智能体的语言世界模型。批评聚焦于模拟器保真度、基准设计及成本问题,在胡说八道指数上仅得4.5/10分。
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。
Libretto提出了一种结构化框架,用于符号音乐生成与修改,采用LLM原生语法和经语料库校准的统计评估,涵盖多个音乐维度,使LLM代理能够将音乐视为可测量和可编辑的对象。
本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。
OpenAI 正准备发布 GPT-5.6 系列,包括标准版、Mini 和 Pro 版本,传闻具有 150 万个 token 的上下文窗口和改进的自主编码能力,目标在周二发布,与 Anthropic 竞争激烈。
Dango是一个18亿参数的大型语言模型,严格使用日语(L1)进行预训练,然后使用英语(L2)进行微调,以研究第二语言习得中的语言迁移效应。该模型从预训练语料库中过滤掉英语污染,并展现出类似人类的L2输出模式。
本文提出了一种基于语言模型指导的反事实推荐流程,用于改善基于文本的远程医疗中医患沟通。该流程识别出语气和可操作性等可解释特征,并建议在不改变医疗内容的前提下,通过最小化变更来增加患者积极反馈,平均预测积极反馈提升6.41%。
提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。
本文回顾了SWave(一种复数值循环语言模型)的设计演进过程,详细说明了哪些架构组件被保留、重构、取代或被证明为非承重件,并形式化了诸如余弦主导坍缩等失效模式。