large-language-model

#large-language-model

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning ↗ · 6小时前

DeepSeek 发布了完整的 V4 论文，详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧（预判路由与 SwiGLU 截断），以及用于 RLHF 的生成式奖励模型，实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞

#large-language-model

@cyrilXBT：中国刚刚打造了一款AI模型，以极低成本与OpenAI和Anthropic正面竞争。而且有人刚刚发布了一门免费课程……

X AI KOLs Timeline ↗ · 11小时前

DeepSeek是一款由中国量化对冲基金开发的AI模型，据报道其训练成本仅为GPT-4的约5%，却能达到相当的性能水平，引发了市场剧烈震荡，导致NVIDIA单日市值蒸发6000亿美元。目前已有人发布了一门时长1小时50分钟的免费课程，教用户如何在本地及通过API使用DeepSeek V4。

0 人收藏 0 人点赞

#large-language-model

@Teknium：我们在 OpenRouter 所有 AI 应用中成功登顶全球第一。由衷感谢近 1000 位贡献者们……

X AI KOLs Following ↗ · 14小时前缓存

Hermes Agent 模型凭借近 1000 名开发者的贡献，在 OpenRouter 全平台 AI 应用中荣登全球榜首。创作者感谢社区支持，并邀请大家为后续改进提供建议。

0 人收藏 0 人点赞

#large-language-model

Ring 2.6 1T

Reddit r/LocalLLaMA ↗ · 22小时前

Ring 2.6 1T，一个拥有开放权重的1万亿参数模型，已在Open Router上免费提供，预计将全面公开发布。

0 人收藏 0 人点赞

#large-language-model

ZAYA1-74B-Preview：在AMD上扩展预训练

Reddit r/LocalLLaMA ↗ · 昨天缓存

Zyphra发布ZAYA1-74B-Preview，一个在AMD硬件上训练的740亿参数基础模型，强调了强大的预强化学习推理能力和智能体性能信号。

0 人收藏 0 人点赞

#large-language-model

unsloth/Qwen3.6-27B-GGUF

Hugging Face Models Trending ↗ · 2026-04-22 缓存

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本，具备更强的智能体编程能力、工具调用功能，并支持 Unsloth Studio。

0 人收藏 0 人点赞

#large-language-model

Qwen/Qwen3.6-27B

Hugging Face Models Trending ↗ · 2026-04-21 缓存

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B，该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性，有助于提升开发者的工作效率。

0 人收藏 0 人点赞

#large-language-model

Qwen3.6-Max-Preview：更智能、更精准，持续演进中

Hacker News Top ↗ · 2026-04-20

Alibaba 发布了 Qwen3.6-Max-Preview，作为其 Qwen3.6 模型系列的更新版本，该版在性能与综合能力上均有显著提升。

0 人收藏 0 人点赞

#large-language-model

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

X AI KOLs Following ↗ · 2026-04-18 缓存

MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：4×RTX 4090（96 GB）：71.52 tok/s，首 token 延迟 1045 ms；4×RTX 5090（128 GB）：120.54 tok/s，首 token 延迟 725 ms；1×RTX PRO 6000（96 GB）：118.74 tok/s，首 token 延迟 765 ms；DGX

0 人收藏 0 人点赞

#large-language-model

那么...有人弄清楚Elephant Alpha到底是哪个公司的模型了吗？

Reddit r/singularity ↗ · 2026-04-18

社区正在讨论Elephant Alpha的身份，这是一个100B参数的模型，在OpenRouter上排名第一，拥有256K上下文窗口、快速推理速度和强大的编码能力，但中文支持较差，大家猜测可能是哪家公司开发的。

0 人收藏 0 人点赞

#large-language-model

MiniMaxAI/MiniMax-M2.7

Hugging Face Models Trending ↗ · 2026-04-09 缓存

MiniMaxAI发布了MiniMax-M2.7，这是一个开放权重模型，具备自我进化能力、先进的智能体团队支持，并在软件工程基准测试中表现出色（SWE-Pro上56.22%，MLE Bench Lite上66.6%奖牌率），在生产事故恢复和专业工作任务中有显著应用。

0 人收藏 0 人点赞

#large-language-model

Gemma 4：同等参数规模下能力最强的开源模型

Google DeepMind Blog ↗ · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4，这是其迄今为止能力最强的开源模型系列，专为高级推理和智能体工作流设计，在多种参数规模下均实现了极高的智能密度。

0 人收藏 0 人点赞

#large-language-model

mistralai/Mistral-Medium-3.5-128B

Hugging Face Models Trending ↗ · 2026-03-31 缓存

Mistral AI 发布了 Mistral Medium 3.5，这是一款拥有 1280 亿参数的密集多模态模型，具备 256K 上下文窗口、可配置推理能力，并在指令遵循、推理和编程任务方面实现了性能提升。

0 人收藏 0 人点赞

#large-language-model

google/gemma-4-26B-A4B-it

Hugging Face Models Trending ↗ · 2026-03-11 缓存

Google DeepMind 发布 Gemma 4，一系列开放权重的多模态模型，参数量从2.3B到31B，支持文本、图像、视频和音频输入。模型具有256K上下文窗口，MoE和密集架构，增强的推理能力，并针对从移动设备到服务器的部署进行优化。

0 人收藏 0 人点赞

#large-language-model

介绍 GPT-5.4

OpenAI Blog ↗ · 2026-03-05 缓存

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天，我们在 ChatGPT（作为 GPT‑5\.4 Thinking）、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**，适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。

0 人收藏 0 人点赞

#large-language-model

Gemini 3 Flash: 为速度而生的前沿智能

Google DeepMind Blog ↗ · 2025-12-17 缓存

Google 发布了 Gemini 3 Flash，这是一款快速、高性价比的 AI 模型，将 Pro 级别的推理能力与 Flash 级别的速度相结合，适用于编程、复杂分析和智能体工作流等任务。

0 人收藏 0 人点赞

#large-language-model

推出 GPT-5.2

OpenAI Blog ↗ · 2025-12-11 缓存

OpenAI 推出 GPT-5.2，这是目前最强大的模型系列，在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能，在 44 个职业的 GDPval 任务中，70.9% 的表现超越了人类专家。

0 人收藏 0 人点赞

#large-language-model

面向开发者推出GPT-5.1

OpenAI Blog ↗ · 2025-11-13 缓存

OpenAI发布了GPT-5.1，这是GPT-5系列中的一个新模型，它可以基于任务复杂度动态调整思考时间，在保持前沿智能的同时，性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存（24小时保留）、新的编码工具（apply_patch和shell），以及针对延迟敏感应用的“无推理”模式。

0 人收藏 0 人点赞

#large-language-model

GPT-5.1：更聪明、对话更自然的 ChatGPT

OpenAI Blog ↗ · 2025-11-12 缓存

OpenAI 发布 GPT-5.1 Instant 和 GPT-5.1 Thinking，这是 GPT-5 系列的升级版本，具有更好的对话能力、更强的指令遵循、自适应推理和增强的语气控制。这些模型正在向 ChatGPT 用户推出，首先面向付费用户，API 将在本周晚些时候提供。

0 人收藏 0 人点赞

#large-language-model

GPT-5 和工作的新时代

OpenAI Blog ↗ · 2025-08-07 缓存

OpenAI 宣布推出 GPT-5，这是他们最先进的模型，统一了 GPT-4o、o 系列推理、智能体和高级数学等功能，将立即向 Team 用户推出，并为开发者提供 API 访问。此次发布是一个重大里程碑，已有 7 亿周活跃 ChatGPT 用户和 500 万付费企业用户在使用 OpenAI 的技术。

0 人收藏 0 人点赞

large-language-model

提交意见反馈