标签
Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。
MIT's Kai-Ming He team released ELF, a new language model that uses diffusion processes in continuous vector space for text generation, bypassing standard autoregressive architectures and significantly reducing data requirements.
Hebatron 是一款基于 NVIDIA Nemotron-3 混合专家(MoE)架构构建的、专攻希伯来语的新开源权重大型语言模型。该模型在实现高效推理的同时展现出强大的推理能力。它是首个针对该架构进行的语言特定适配版本,并支持原生长上下文处理。
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。
AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。
葡萄牙政府向AMÁLIA投资了550万欧元。这是一款基于EuroLLM、面向欧洲葡萄牙语的开源大语言模型,但该模型的数据、权重及基准测试结果尚未公开。
昆明大学的综述论文调研了如何利用预训练语言模型自动化构建知识图谱,并提出了轻量级大语言模型框架LLHKG,其性能可媲美GPT-3.5。
提出 Token-to-Mask(T2M)重掩码,在掩码扩散 LM 中通过将可疑 token 重置为掩码状态而非直接覆盖来修正生成错误,在 CMATH 上最高提升 5.92 准确率,无需额外训练或参数。
Grok 4.3 beta 已发布,通过 xAI 的订阅服务以每月 300 美元的价格提供先进的 AI 功能,代表了埃隆·马斯克 AI 助手平台的增量更新。
Google 和 DeepMind 推出 VaultGemma,这是一个 1B 参数的开源语言模型,采用差分隐私技术进行训练,并配备了新的缩放律研究,该研究刻画了差分隐私大型语言模型训练中计算、隐私和效用之间的权衡关系。
OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b,两款最先进的开放权重语言模型,采用 Apache 2.0 许可证,性能与专有模型相当,可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力,并进行了全面的安全评估。
OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。
OpenAI 宣布,在推出九个月后,已有超过 300 个应用通过其 API 使用 GPT-3,每天生成 45 亿个词汇。主要用例包括用于客户反馈分析的 Viable、用于交互式故事讲述的 Fable Studio 和用于语义搜索的 Algolia。
OpenAI 宣布发布 API,用于通过通用文本界面访问其 AI 模型。该 API 以私密测试版的形式推出,采用严格的安全措施,包括强制性的生产审查和内容限制,以防止有害用途。
OpenAI 发布了 GPT-2 1.5B 参数模型,附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险,以及检测合成文本的挑战。检测模型达到约 95% 的准确率,但在实际部署中需要配套方法。
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。