language-modeling

#language-modeling

@stanfordnlp: CS336的“问题”不在于大约22小时的视频，而在于完成作业所需的大量时间。…

X AI KOLs Following ↗ · 2小时前缓存

斯坦福大学的CS336课程宣布开课，从零开始教授语言建模，包含密集的实践作业，涵盖分词器、Transformer、数据和对齐。

0 人收藏 0 人点赞

#language-modeling

擦除后增量注意力：在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL ↗ · 2天前缓存

提出擦除后增量注意力（EDA），一种用于线性注意力的记忆更新规则，它在写入新内容之前，先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明，在标准评估和长上下文评估中均取得一致增益。

0 人收藏 0 人点赞

#language-modeling

@tan_maty: 我勒个去，下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程，我给找到了，小白必看！我已经学废了，你们也快来吧，我感觉我英文水平也进步了！ Stanford CS336: Language Mod…

X AI KOLs Timeline ↗ · 5天前缓存

斯坦福大学CS336课程旨在让学生从零开始构建语言模型，深入理解数据、系统和模型的全栈设计，课程视频已公开，适合AI初学者学习。

0 人收藏 0 人点赞

#language-modeling

@li9292: 如何加入OpenAI？只需精通以下课程： 1. 斯坦福大学的“从零开始的语言建模”课程：http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后，她逐一深入研究概念，使用博客、论文、与 ChatGP…

X AI KOLs Timeline ↗ · 5天前缓存

该推文推荐了斯坦福大学CS336课程及一系列学习资源，作为加入OpenAI的准备路径。

0 人收藏 0 人点赞

#language-modeling

@stanfordnlp: “我开始了我的过程，首先观看了斯坦福大学的《从头开始的语言建模》课程的所有讲座，这有助于……”

X AI KOLs Following ↗ · 6天前缓存

Alisa Liu 宣布她将加入 OpenAI，并分享了一篇关于求职经历的博客文章，其中包含来自斯坦福大学《从头开始的语言建模》课程的见解。

0 人收藏 0 人点赞

#language-modeling

gzip能成为语言模型吗？

Lobsters Hottest ↗ · 2026-06-16 缓存

本文探讨了将gzip压缩算法用作语言模型的可行性，展示了压缩算法可以通过基于压缩长度对候选续文进行评分并利用束搜索来生成文本。

0 人收藏 0 人点赞

#language-modeling

@nathanrs：我前几天发现，任何压缩工具都可以被扭曲用于语言建模。结果发现 gzip 可以生成…

X AI KOLs Following ↗ · 2026-06-16 缓存

该推文说明了任何压缩工具（包括 gzip）都能被改装用于语言建模，而且 gzip 可以生成颇为类似莎士比亚风格的文本。并附有相关文章链接。

0 人收藏 0 人点赞

#language-modeling

简化自然语言中任意条件建模

arXiv cs.CL ↗ · 2026-06-16 缓存

提出 ac-gpt，一种对因果Transformer的简单修改，使其能够在单个前向传递中评估和采样任意条件（过去、未来、混合），同时保持从左到右的顺序和下一个词预测，从而允许现有LLM微调用于任意条件建模。

0 人收藏 0 人点赞

#language-modeling

Semantic DLM+：通过转移核设计中的偏差-方差权衡改进扩散语言模型

arXiv cs.LG ↗ · 2026-06-16 缓存

本文从偏差-方差角度对扩散语言模型进行了理论分析，识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+，通过添加全局转移和语义频率惩罚来克服语义盆地问题，在LM1B和OpenWebText基准上实现了有竞争力的生成质量。

0 人收藏 0 人点赞

#language-modeling

Kuramoto注意力：在环面上同步自注意力

arXiv cs.LG ↗ · 2026-06-11 缓存

介绍了Kuramoto注意力，一种自注意力层，其中隐藏状态是环面上的相位角，通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。

0 人收藏 0 人点赞

#language-modeling

@rohanpaul_ai: 有趣，这篇论文表明Transformer可能不需要独立的键和值投影就能表现良好。这篇论文…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

本论文研究了Transformer是否需要独立的键和值投影，发现共享它们可将KV缓存减少50%，而困惑度仅增加3.1%，并且与GQA和MQA结合时进一步减少。

0 人收藏 0 人点赞

#language-modeling

CS336：从零开始的语言建模

Hacker News Top ↗ · 2026-06-01 缓存

斯坦福大学提供一门综合课程CS336，学生将从零开始构建语言模型，涵盖数据收集、Transformer构建、训练和评估。

0 人收藏 0 人点赞

#language-modeling

The Cognitive Categorical Transformer: 语言建模中的范畴理论归纳偏差

arXiv cs.AI ↗ · 2026-05-29 缓存

The Cognitive Categorical Transformer (CCT) 使用范畴理论组件增强GPT-2 Small，在匹配训练条件下在WikiText-103上实现了12%的相对困惑度降低，其中单纯消息传递贡献了84%的改进。

0 人收藏 0 人点赞

#language-modeling

Parallax: 参数化局部线性注意力机制用于语言建模

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

介绍Parallax，一种参数化局部线性注意力机制，结合硬件感知优化，提升LLM预训练效率和性能，在0.6B和1.7B规模实现帕累托改进。

0 人收藏 0 人点赞

#language-modeling

同策略蒸馏（5分钟阅读）

TLDR AI ↗ · 2026-05-26

本文引入同策略蒸馏，通过在教师提供的token级KL正则化下，在学生自身轨迹上训练学生模型，解决训练-推理分布不匹配问题，统一了前向KL、反向KL和JSD损失，其中反向KL更适用于较小的学生模型。

0 人收藏 0 人点赞

#language-modeling

@jiqizhixin: NVIDIA 新成果！你可以在不扰乱模型已有知识的前提下编辑其压缩记忆！推出 Gated DeltaNe…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

NVIDIA 推出 Gated DeltaNet-2，一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法，使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。

0 人收藏 0 人点赞

#language-modeling

HRM-Text: 超越规模的高效预训练

arXiv cs.CL ↗ · 2026-05-21 缓存

HRM-Text 引入了一种分层循环模型，将计算解耦为慢速和快速层级，使得仅使用400亿个token和1500美元预算即可从头开始高效预训练，实现了与更大模型竞争的性能。

0 人收藏 0 人点赞

#language-modeling

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL ↗ · 2026-05-21 缓存

FlowLM 提出了一种流匹配语言模型，通过高效微调从预训练扩散模型衍生而来，能够实现高质量少步文本生成，其效果可与2000步扩散采样相媲美，而训练轮次更少。

0 人收藏 0 人点赞

#language-modeling

Gated DeltaNet-2：线性注意力中的擦除与写入解耦

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门，在长上下文语言建模和检索任务中实现了优越的性能。

0 人收藏 0 人点赞

#language-modeling

基于超球面流的语言建模

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 S-FLM，一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行，旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

0 人收藏 0 人点赞

language-modeling

提交意见反馈