large-language-model

标签

Cards List
#large-language-model

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning · 6小时前

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞
#large-language-model

@cyrilXBT:中国刚刚打造了一款AI模型,以极低成本与OpenAI和Anthropic正面竞争。而且有人刚刚发布了一门免费课程……

X AI KOLs Timeline · 11小时前

DeepSeek是一款由中国量化对冲基金开发的AI模型,据报道其训练成本仅为GPT-4的约5%,却能达到相当的性能水平,引发了市场剧烈震荡,导致NVIDIA单日市值蒸发6000亿美元。目前已有人发布了一门时长1小时50分钟的免费课程,教用户如何在本地及通过API使用DeepSeek V4。

0 人收藏 0 人点赞
#large-language-model

@Teknium:我们在 OpenRouter 所有 AI 应用中成功登顶全球第一。由衷感谢近 1000 位贡献者们……

X AI KOLs Following · 14小时前 缓存

Hermes Agent 模型凭借近 1000 名开发者的贡献,在 OpenRouter 全平台 AI 应用中荣登全球榜首。创作者感谢社区支持,并邀请大家为后续改进提供建议。

0 人收藏 0 人点赞
#large-language-model

Ring 2.6 1T

Reddit r/LocalLLaMA · 22小时前

Ring 2.6 1T,一个拥有开放权重的1万亿参数模型,已在Open Router上免费提供,预计将全面公开发布。

0 人收藏 0 人点赞
#large-language-model

ZAYA1-74B-Preview:在AMD上扩展预训练

Reddit r/LocalLLaMA · 昨天 缓存

Zyphra发布ZAYA1-74B-Preview,一个在AMD硬件上训练的740亿参数基础模型,强调了强大的预强化学习推理能力和智能体性能信号。

0 人收藏 0 人点赞
#large-language-model

unsloth/Qwen3.6-27B-GGUF

Hugging Face Models Trending · 2026-04-22 缓存

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本,具备更强的智能体编程能力、工具调用功能,并支持 Unsloth Studio。

0 人收藏 0 人点赞
#large-language-model

Qwen/Qwen3.6-27B

Hugging Face Models Trending · 2026-04-21 缓存

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。

0 人收藏 0 人点赞
#large-language-model

Qwen3.6-Max-Preview:更智能、更精准,持续演进中

Hacker News Top · 2026-04-20

Alibaba 发布了 Qwen3.6-Max-Preview,作为其 Qwen3.6 模型系列的更新版本,该版在性能与综合能力上均有显著提升。

0 人收藏 0 人点赞
#large-language-model

@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…

X AI KOLs Following · 2026-04-18 缓存

MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX

0 人收藏 0 人点赞
#large-language-model

那么...有人弄清楚Elephant Alpha到底是哪个公司的模型了吗?

Reddit r/singularity · 2026-04-18

社区正在讨论Elephant Alpha的身份,这是一个100B参数的模型,在OpenRouter上排名第一,拥有256K上下文窗口、快速推理速度和强大的编码能力,但中文支持较差,大家猜测可能是哪家公司开发的。

0 人收藏 0 人点赞
#large-language-model

MiniMaxAI/MiniMax-M2.7

Hugging Face Models Trending · 2026-04-09 缓存

MiniMaxAI发布了MiniMax-M2.7,这是一个开放权重模型,具备自我进化能力、先进的智能体团队支持,并在软件工程基准测试中表现出色(SWE-Pro上56.22%,MLE Bench Lite上66.6%奖牌率),在生产事故恢复和专业工作任务中有显著应用。

0 人收藏 0 人点赞
#large-language-model

Gemma 4:同等参数规模下能力最强的开源模型

Google DeepMind Blog · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4,这是其迄今为止能力最强的开源模型系列,专为高级推理和智能体工作流设计,在多种参数规模下均实现了极高的智能密度。

0 人收藏 0 人点赞
#large-language-model

mistralai/Mistral-Medium-3.5-128B

Hugging Face Models Trending · 2026-03-31 缓存

Mistral AI 发布了 Mistral Medium 3.5,这是一款拥有 1280 亿参数的密集多模态模型,具备 256K 上下文窗口、可配置推理能力,并在指令遵循、推理和编程任务方面实现了性能提升。

0 人收藏 0 人点赞
#large-language-model

google/gemma-4-26B-A4B-it

Hugging Face Models Trending · 2026-03-11 缓存

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

0 人收藏 0 人点赞
#large-language-model

介绍 GPT-5.4

OpenAI Blog · 2026-03-05 缓存

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。

0 人收藏 0 人点赞
#large-language-model

Gemini 3 Flash: 为速度而生的前沿智能

Google DeepMind Blog · 2025-12-17 缓存

Google 发布了 Gemini 3 Flash,这是一款快速、高性价比的 AI 模型,将 Pro 级别的推理能力与 Flash 级别的速度相结合,适用于编程、复杂分析和智能体工作流等任务。

0 人收藏 0 人点赞
#large-language-model

推出 GPT-5.2

OpenAI Blog · 2025-12-11 缓存

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

0 人收藏 0 人点赞
#large-language-model

面向开发者推出GPT-5.1

OpenAI Blog · 2025-11-13 缓存

OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。

0 人收藏 0 人点赞
#large-language-model

GPT-5.1:更聪明、对话更自然的 ChatGPT

OpenAI Blog · 2025-11-12 缓存

OpenAI 发布 GPT-5.1 Instant 和 GPT-5.1 Thinking,这是 GPT-5 系列的升级版本,具有更好的对话能力、更强的指令遵循、自适应推理和增强的语气控制。这些模型正在向 ChatGPT 用户推出,首先面向付费用户,API 将在本周晚些时候提供。

0 人收藏 0 人点赞
#large-language-model

GPT-5 和工作的新时代

OpenAI Blog · 2025-08-07 缓存

OpenAI 宣布推出 GPT-5,这是他们最先进的模型,统一了 GPT-4o、o 系列推理、智能体和高级数学等功能,将立即向 Team 用户推出,并为开发者提供 API 访问。此次发布是一个重大里程碑,已有 7 亿周活跃 ChatGPT 用户和 500 万付费企业用户在使用 OpenAI 的技术。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈