vLLM 现在有一个新的流式解析器支持 Qwen3+，可在 nightly 版本中使用

Reddit r/LocalLLaMA 2026/06/15 23:34 工具

vllm streaming-parser qwen3 llm-serving open-source nightly

摘要

vLLM 现在为 Qwen3+ 模型提供了流式解析器，可在 nightly 构建中使用。vLLM 是一个快速且易于使用的 LLM 推理和服务库。

据报道，新的解析器修复了许多人在使用 Qwen3.6-27b 时遇到的中途停止问题，以及由于分块边界导致的流式工具调用失败。中途停止问题在尝试将模型用于代理工作流时尤其令人烦恼。在我今晚进行的有限测试中，已经没有再看到这种情况发生，祈祷问题已经永久消失！

查看原文

查看缓存全文

缓存时间: 2026/06/16 01:06

简单、快速、便宜的LLM服务，面向所有人

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者Slack |

相似文章

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库，拥有业界领先的吞吐量，支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新，主要功能包括针对吞吐量、量化以及硬件支持的优化。

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布，带来吞吐量、量化、投机解码及多硬件支持的重大改进，助力可扩展的大模型推理服务。

X AI KOLs Following

vime是一个用于LLM后训练的新开源RL框架，基于slime的训练设计和vLLM的推理引擎构建，在vLLM生态系统中提供简单、稳定且高效的流水线。

Reddit r/LocalLLaMA

一名用户报告称，Qwen3.6-27B 模型在使用 llama.cpp 时比使用 vLLM 表现更好且更可靠，并指出尽管进行了大量配置，vLLM 仍出现工具调用错误和“被切除脑叶”的行为。