large-context

#large-context

有没有人成功让 Gemma 4 12B（统一音频）在带有大型系统提示时真正关注语音？

Reddit r/LocalLLaMA ↗ · 5天前

用户报告称，当系统提示较大（约 21k 个 token）时，Gemma 4 12B 统一音频模型会停止关注语音，并请求变通方法或解释，指出该问题在 vLLM、llama.cpp 和 LiteRT-LM 后端中均存在。

0 人收藏 0 人点赞

#large-context

X AI KOLs Following ↗ · 2026-06-04 缓存

NVIDIA发布了Nemotron Ultra，这是一个拥有55B/550B参数的混合MoE模型，具有百万上下文窗口，支持MTP推测解码，并在transformers中提供day-0支持。

0 人收藏 0 人点赞

#large-context

X AI KOLs Following ↗ · 2026-06-04 缓存

MiniMax发布了M3，一个开放权重模型，结合了前沿编码、1M上下文和原生多模态能力，性能与Opus相当，但成本仅为其一小部分。

0 人收藏 0 人点赞

#large-context

X AI KOLs Timeline ↗ · 2026-05-29 缓存

StepFun 发布了 Step-3.7-Flash，这是一个新的视觉语言 MoE 大模型，拥有 198B 参数（11B 激活），256K 上下文，推理速度高达 400 tokens/秒。

0 人收藏 0 人点赞

#large-context

YouTube AI Channels ↗ · 2026-05-14 缓存

OpenAI在Build Hour中发布了GPT Realtime-2及两个配套模型，增强了语音交互的智能性和自然度，支持128k上下文、并行工具调用和动态语音克隆，展示了语音驱动的购物助手和分析仪表盘等生产级应用。

0 人收藏 0 人点赞