language-model

#language-model

@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

X AI KOLs Following ↗ · 6小时前缓存

Percy Liang宣布，对于下一个Marin模型，他们正在编译新的数据混合，并请求高质量的token数据用于预训练、中期训练和SFT。

0 人收藏 0 人点赞

#language-model

@0xLogicrw: MIT 何恺明团队发布了新语言模型 ELF（Embedded Language Flows）。他们绕开了目前的自回归架构，把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是：把整个生成过程塞进连续的向量空间，直到最后一步才把…

X AI KOLs Timeline ↗ · 14小时前

MIT's Kai-Ming He team released ELF, a new language model that uses diffusion processes in continuous vector space for text generation, bypassing standard autoregressive architectures and significantly reducing data requirements.

0 人收藏 0 人点赞

#language-model

HEBATRON：一款专攻希伯来语的开权重大语言模型

arXiv cs.CL ↗ · 15小时前缓存

Hebatron 是一款基于 NVIDIA Nemotron-3 混合专家（MoE）架构构建的、专攻希伯来语的新开源权重大型语言模型。该模型在实现高效推理的同时展现出强大的推理能力。它是首个针对该架构进行的语言特定适配版本，并支持原生长上下文处理。

0 人收藏 0 人点赞

#language-model

提示-激活对偶性：通过注意力层干预改进激活引导

Hugging Face Daily Papers ↗ · 2天前缓存

本文识别出KV缓存污染是对话中激活引导的一种失败模式，并提出了GCAD方法，该方法从提示贡献中提取引导信号，并应用词元级门控来改进长程连贯性，在多轮基准上取得了显著提升。

0 人收藏 0 人点赞

#language-model

混合专家模型中的涌现式模块化（8 分钟阅读）

TLDR AI ↗ · 2天前缓存

Ai2 发布了 EMO，一个 14B 参数的混合专家语言模型，训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家，同时保持接近全模型性能。

0 人收藏 0 人点赞

#language-model

AI2推出的新MoE模型：EMO

Reddit r/LocalLLaMA ↗ · 4天前

AI2发布了EMO，一个混合专家（MoE）语言模型，总参数量14B，其中1B活跃参数，基于1万亿tokens训练，并采用文档级路由，即专家会按领域（如健康、新闻等）进行聚类。

0 人收藏 1 人点赞

#language-model

Amália与欧洲葡萄牙语LLM的未来

Hacker News Top ↗ · 5天前缓存

葡萄牙政府向AMÁLIA投资了550万欧元。这是一款基于EuroLLM、面向欧洲葡萄牙语的开源大语言模型，但该模型的数据、权重及基准测试结果尚未公开。

0 人收藏 0 人点赞

#language-model

基于语言模型的知识图谱构建

arXiv cs.CL ↗ · 2026-04-22 缓存

昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱，并提出了轻量级大语言模型框架LLHKG，其性能可媲美GPT-3.5。

0 人收藏 0 人点赞

#language-model

重掩码，而非替换：掩码扩散语言模型中的 Token-to-Mask 精修

arXiv cs.CL ↗ · 2026-04-22 缓存

提出 Token-to-Mask（T2M）重掩码，在掩码扩散 LM 中通过将可疑 token 重置为掩码状态而非直接覆盖来修正生成错误，在 CMATH 上最高提升 5.92 准确率，无需额外训练或参数。

0 人收藏 0 人点赞

#language-model

自己从零写扩散语言模型比我想的简单多了[P]

Reddit r/MachineLearning ↗ · 2026-04-21

开发者分享了一个极简的750万参数扩散语言模型，用莎士比亚文本从头训练，并开源代码供学习。

0 人收藏 0 人点赞

#language-model

Grok 4.3 beta：马斯克的（每月300美元）超级助手

Reddit r/singularity ↗ · 2026-04-18

Grok 4.3 beta 已发布，通过 xAI 的订阅服务以每月 300 美元的价格提供先进的 AI 功能，代表了埃隆·马斯克 AI 助手平台的增量更新。

0 人收藏 0 人点赞

#language-model

VaultGemma：全球最强大的差分隐私大型语言模型

Google DeepMind Blog ↗ · 2025-10-23 缓存

Google 和 DeepMind 推出 VaultGemma，这是一个 1B 参数的开源语言模型，采用差分隐私技术进行训练，并配备了新的缩放律研究，该研究刻画了差分隐私大型语言模型训练中计算、隐私和效用之间的权衡关系。

0 人收藏 0 人点赞

#language-model

推出 gpt-oss

OpenAI Blog ↗ · 2025-08-05 缓存

OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b，两款最先进的开放权重语言模型，采用 Apache 2.0 许可证，性能与专有模型相当，可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力，并进行了全面的安全评估。

0 人收藏 0 人点赞

#language-model

ChatGPT 介绍

OpenAI Blog ↗ · 2022-11-30 缓存

OpenAI 推出 ChatGPT，这是一个基于 GPT-3.5 的对话型 AI 模型，通过人类反馈强化学习（RLHF）进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求，在研究预览期间提供免费访问。

0 人收藏 0 人点赞

#language-model

GPT-3 为下一代应用提供支持

OpenAI Blog ↗ · 2021-03-25 缓存

OpenAI 宣布，在推出九个月后，已有超过 300 个应用通过其 API 使用 GPT-3，每天生成 45 亿个词汇。主要用例包括用于客户反馈分析的 Viable、用于交互式故事讲述的 Fable Studio 和用于语义搜索的 Algolia。

0 人收藏 0 人点赞

#language-model

OpenAI API

OpenAI Blog ↗ · 2020-06-11 缓存

OpenAI 宣布发布 API，用于通过通用文本界面访问其 AI 模型。该 API 以私密测试版的形式推出，采用严格的安全措施，包括强制性的生产审查和内容限制，以防止有害用途。

0 人收藏 0 人点赞

#language-model

GPT-2: 1.5B 版本发布

OpenAI Blog ↗ · 2019-11-05 缓存

OpenAI 发布了 GPT-2 1.5B 参数模型，附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险，以及检测合成文本的挑战。检测模型达到约 95% 的准确率，但在实际部署中需要配套方法。

0 人收藏 0 人点赞

#language-model

更好的语言模型及其影响

OpenAI Blog ↗ · 2019-02-14 缓存

OpenAI 推出 GPT-2，这是一个拥有 15 亿参数的基于 Transformer 的语言模型，在 40GB 的互联网文本上进行训练，在语言建模基准上达到了最先进的性能，并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑，仅公开发布了较小的模型和技术论文，而非完整的训练模型。

0 人收藏 0 人点赞

language-model

提交意见反馈