标签
用户报告称,当系统提示较大(约 21k 个 token)时,Gemma 4 12B 统一音频模型会停止关注语音,并请求变通方法或解释,指出该问题在 vLLM、llama.cpp 和 LiteRT-LM 后端中均存在。
NVIDIA发布了Nemotron Ultra,这是一个拥有55B/550B参数的混合MoE模型,具有百万上下文窗口,支持MTP推测解码,并在transformers中提供day-0支持。
MiniMax发布了M3,一个开放权重模型,结合了前沿编码、1M上下文和原生多模态能力,性能与Opus相当,但成本仅为其一小部分。
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
OpenAI在Build Hour中发布了GPT Realtime-2及两个配套模型,增强了语音交互的智能性和自然度,支持128k上下文、并行工具调用和动态语音克隆,展示了语音驱动的购物助手和分析仪表盘等生产级应用。