vLLM 现在有一个新的流式解析器支持 Qwen3+,可在 nightly 版本中使用

Reddit r/LocalLLaMA 工具

摘要

vLLM 现在为 Qwen3+ 模型提供了流式解析器,可在 nightly 构建中使用。vLLM 是一个快速且易于使用的 LLM 推理和服务库。

据报道,新的解析器修复了许多人在使用 Qwen3.6-27b 时遇到的中途停止问题,以及由于分块边界导致的流式工具调用失败。中途停止问题在尝试将模型用于代理工作流时尤其令人烦恼。在我今晚进行的有限测试中,已经没有再看到这种情况发生,祈祷问题已经永久消失!
查看原文
查看缓存全文

缓存时间: 2026/06/16 01:06

简单、快速、便宜的LLM服务,面向所有人

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者Slack |

相似文章

vllm-project/vllm v0.19.1

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

Qwen3.6 27B 在 vLLM 中的表现比在 llama.cpp 中更差

Reddit r/LocalLLaMA

一名用户报告称,Qwen3.6-27B 模型在使用 llama.cpp 时比使用 vLLM 表现更好且更可靠,并指出尽管进行了大量配置,vLLM 仍出现工具调用错误和“被切除脑叶”的行为。