language-model

标签

Cards List
#language-model

@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读:可以把DSpark想象成:主模型快速构思句子,然后一个小型“编辑器”迅速修正连贯性...

X AI KOLs Timeline · 4小时前 缓存

DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。

0 人收藏 0 人点赞
#language-model

免费GLM 5.2 — 有使用限制

Reddit r/AI_Agents · 5小时前

智谱AI推出GLM 5.2的免费版本,设有使用限制。

0 人收藏 0 人点赞
#language-model

GPT-5.6 Sol 预览版发布,基准差距超预期

Reddit r/ArtificialInteligence · 2天前

OpenAI 发布了 GPT-5.6 Sol 预览版,显示基准差距超出预期。

0 人收藏 0 人点赞
#language-model

我们移除了一个语言模型说德语的能力(3分钟阅读)

TLDR AI · 2天前 缓存

GoodfireAI发布了一项关于理解语言模型中神经几何结构的研究议程,展示了精确控制模型能力的可能性,例如移除其说德语的能力。

0 人收藏 0 人点赞
#language-model

新采样器+验证器*显著*提升小型0.5B模型编码性能

Reddit r/LocalLLaMA · 3天前 缓存

本文介绍了VGB,一种带有概率回溯的过程引导采样算法,通过鲁棒地处理验证器错误,显著提升了小型0.5B模型的编码性能。

0 人收藏 0 人点赞
#language-model

NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一种基于 Nemotron 3 Nano 30B-A3B 主干构建的异常扩散型语言模型。

Reddit r/LocalLLaMA · 3天前 缓存

NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一种基于扩散的语言模型,采用逐块自回归扩散方法,通过对令牌块进行迭代去噪来生成文本,实现了自回归基线 2.42 倍的生成吞吐量,同时保留了基准测试质量 98.7% 的水平。

0 人收藏 0 人点赞
#language-model

@askalphaxiv: "原子语言模型理解并生成材料" 大多数材料AI仍然将晶体和语言分开处理…

X AI KOLs Timeline · 4天前 缓存

本文介绍了一种原子语言模型,它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器,原生处理多模态材料数据,实现了最先进的晶体结构预测和从头生成。

0 人收藏 0 人点赞
#language-model

@_akhaliq: 论文:

X AI KOLs Following · 4天前 缓存

一篇批评性分析Qwen-AgentWorld论文的优质推文串,该论文提出面向通用智能体的语言世界模型。批评聚焦于模拟器保真度、基准设计及成本问题,在胡说八道指数上仅得4.5/10分。

0 人收藏 0 人点赞
#language-model

基于块策略漂移门控的在线策略蒸馏

arXiv cs.LG · 4天前 缓存

本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。

0 人收藏 0 人点赞
#language-model

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending · 6天前 缓存

NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞
#language-model

Qwen/Qwen-AgentWorld-35B-A3B

Hugging Face Models Trending · 6天前 缓存

Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。

0 人收藏 0 人点赞
#language-model

Inception Labs 的 Mercury 2 AI 在 Google 的 DiffusionGemma 擅长的领域击败了它(4分钟阅读)

TLDR AI · 6天前 缓存

Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。

0 人收藏 0 人点赞
#language-model

Libretto:赋予LLM代理音乐结构感知

Hugging Face Daily Papers · 2026-06-21 缓存

Libretto提出了一种结构化框架,用于符号音乐生成与修改,采用LLM原生语法和经语料库校准的统计评估,涵盖多个音乐维度,使LLM代理能够将音乐视为可测量和可编辑的对象。

0 人收藏 0 人点赞
#language-model

揭秘数据受限语言模型预训练中的训练时数据增强

Hugging Face Daily Papers · 2026-06-19 缓存

本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。

0 人收藏 0 人点赞
#language-model

OpenAI 准备发布 GPT-5.6 模型(2分钟阅读)

TLDR AI · 2026-06-19 缓存

OpenAI 正准备发布 GPT-5.6 系列,包括标准版、Mini 和 Pro 版本,传闻具有 150 万个 token 的上下文窗口和改进的自主编码能力,目标在周二发布,与 Anthropic 竞争激烈。

0 人收藏 0 人点赞
#language-model

Z.ai 创始人自信能在年底前打造出传奇级别的 GLM 模型

Reddit r/singularity · 2026-06-18

Z.ai 创始人表示有信心在年底前发布一款传奇级别的 GLM 模型。

0 人收藏 0 人点赞
#language-model

Dango:一个严格仅限L1的大型语言模型,用于研究第二语言习得

arXiv cs.CL · 2026-06-18 缓存

Dango是一个18亿参数的大型语言模型,严格使用日语(L1)进行预训练,然后使用英语(L2)进行微调,以研究第二语言习得中的语言迁移效应。该模型从预训练语料库中过滤掉英语污染,并展现出类似人类的L2输出模式。

0 人收藏 0 人点赞
#language-model

使用基于评分指导的反事实推荐改善医疗沟通

arXiv cs.CL · 2026-06-18 缓存

本文提出了一种基于语言模型指导的反事实推荐流程,用于改善基于文本的远程医疗中医患沟通。该流程识别出语气和可操作性等可解释特征,并建议在不改变医疗内容的前提下,通过最小化变更来增加患者积极反馈,平均预测积极反馈提升6.41%。

0 人收藏 0 人点赞
#language-model

局部与全局注意力的双维度

arXiv cs.CL · 2026-06-18 缓存

提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。

0 人收藏 0 人点赞
#language-model

为什么SWAVE可能并非你所需的一切:关于复数值循环语言模型的概念演进回顾

arXiv cs.LG · 2026-06-18 缓存

本文回顾了SWave(一种复数值循环语言模型)的设计演进过程,详细说明了哪些架构组件被保留、重构、取代或被证明为非承重件,并形式化了诸如余弦主导坍缩等失效模式。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈