qwen3

#qwen3

基于领域特定知识图谱的面向旅游的推理大语言模型

arXiv cs.CL ↗ · 昨天缓存

本文提出一个模块化流水线，使用领域特定知识图谱生成多跳问答对，并微调一个面向旅游领域的推理大语言模型 (Qwen3-4B)，实现了82.4%的精确匹配准确率，显著优于基线模型。

0 人收藏 0 人点赞

#qwen3

面向农业应用的通用大语言模型微调：基于Qwen3-8B的可复现框架与评估协议

arXiv cs.CL ↗ · 昨天缓存

本文提出AgriTune-R，一个用于农业任务微调Qwen3-8B的可复现框架，整合了数据治理、LoRA/QLoRA微调、RAG、专家评估和安全控制。

0 人收藏 0 人点赞

#qwen3

Qwen3-tts.cpp + Compose 桌面 GUI

Reddit r/LocalLLaMA ↗ · 昨天

开发者改进了 qwen3-tts.cpp，使其在 RTX 5080 上实现 5 倍实时运行，并使用 Kotlin Compose Multiplatform 创建了跨平台桌面 GUI，具备语音克隆、流式传输和说话人嵌入管理功能。

0 人收藏 0 人点赞

#qwen3

DeepSpec - deepseek-ai 集合

Reddit r/LocalLLaMA ↗ · 3天前缓存

DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合，包含基于 Qwen3 和 Gemma4 的各种尺寸（1B-3B）的推测解码模型（dspark, dflash, eagle3）。

0 人收藏 0 人点赞

#qwen3

使用稀疏自编码器发现数百万个可解释特征

arXiv cs.LG ↗ · 5天前缓存

本文介绍了Qwen3-Instruct SAE，这是一套基于Qwen3指令微调模型训练的稀疏自编码器，能够发现数百万个可解释特征，并展示了拒绝引导能力。

0 人收藏 0 人点赞

#qwen3

JetSpec：通过并行树草稿打破推测解码的扩展极限

Hugging Face Daily Papers ↗ · 6天前缓存

JetSpec是一个推测解码框架，结合高效的前向草稿与因果条件化，提升LLM推理速度与接受率，在MATH-500上实现最高9.64倍加速，在对话工作负载上实现4.58倍加速。

0 人收藏 0 人点赞

#qwen3

GPU上的无畏并发：在Rust中进行安全的GPU推理，与vLLM/SGLang竞争 [R]

Reddit r/MachineLearning ↗ · 2026-06-18

cuTile Rust 引入了一种基于块（tile）的编程模型，利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争，基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。

0 人收藏 0 人点赞

#qwen3

@SpaceTimeViking: Qwen3.6 27B 在新的 AEON ULTIMATE VLLM 镜像上备受青睐 @NVIDIAAI DGX SPARK OPTIMIZED！https://github.com/AEO…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

AEON-7 发布了 Qwen3.6-27B 的完全无审查、能力增强的 ablitation 版本，针对 NVIDIA DGX Spark 进行了优化，采用 NVFP4 量化和 DFlash 推测解码以提升性能。

0 人收藏 0 人点赞

#qwen3

@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5！这是一个开源的 48 kHz 立体声 TTS 模式…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型，具有零样本语音克隆、原生流式传输，并支持31种语言，基于 Qwen3-4B 骨干网构建，通过 SGLang-Omni 提供。

0 人收藏 0 人点赞

#qwen3

@KaichaoYou: 并发部署是RL训练基础设施中最困难的部分之一。我们很高兴帮助SemiAnalysis进行压力测试…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

KaichaoYou讨论了RL训练基础设施中扩展并发部署的挑战，重点介绍了与SemiAnalysis一起对Qwen3 235B进行的沙箱扩展压力测试，包括错误和修复的详细说明。

0 人收藏 0 人点赞

#qwen3

@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架，用于推理…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

ASAG利用注意力熵来检测推理何时无效益，提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示，准确率提升4.4%，生成的token减少超过40%。

0 人收藏 0 人点赞

#qwen3

vLLM 现在有一个新的流式解析器支持 Qwen3+，可在 nightly 版本中使用

Reddit r/LocalLLaMA ↗ · 2026-06-15 缓存

vLLM 现在为 Qwen3+ 模型提供了流式解析器，可在 nightly 构建中使用。vLLM 是一个快速且易于使用的 LLM 推理和服务库。

0 人收藏 0 人点赞

#qwen3

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

X AI KOLs Timeline ↗ · 2026-06-13 缓存

FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.

0 人收藏 0 人点赞

#qwen3

面向多模态大语言模型的移动用户体验推理：任务、基准与方法

arXiv cs.AI ↗ · 2026-06-12 缓存

本文介绍了UXBench，这是一个用于评估多模态大语言模型在移动用户体验推理任务上的多模态基准，并提出了UI-UX，一种基于Qwen3-VL-4B-Thinking微调的多模态大语言模型，在该基准上取得了最先进的性能。

0 人收藏 0 人点赞

#qwen3

再加一张GPU就获得近乎线性的扩展？有点奇怪

Reddit r/LocalLLaMA ↗ · 2026-06-08

一位用户报告称，在使用Qwen模型进行推理时，添加第二张RTX 3090后实现了近乎线性的性能扩展，在没有NVLink的情况下，解码TPS提升了约1.8倍。

0 人收藏 0 人点赞

#qwen3

club-3090 为 Qwen3.6-27B 添加实验性 FP8 支持！

Reddit r/LocalLLaMA ↗ · 2026-06-07

club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持，使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。

0 人收藏 0 人点赞

#qwen3

llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试（t/s）

Reddit r/LocalLLaMA ↗ · 2026-06-03

llama.cpp 发布 b9495 版本，针对 Qwen3.6/3.5-MTP（多令牌预测）进行了优化，并请用户分享他们的基准测试结果及完整的命令详情。

0 人收藏 0 人点赞

#qwen3

Domino：在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

Domino是一个推测解码框架，它将因果依赖建模与自回归草稿生成解耦，采用并行主干和轻量级因果精炼头，在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞

#qwen3

@tunguz: 看到这些推文后，我决定在我那台装有 RTX 1070 GPU 的老旧 Ubuntu 电脑上试试（就是那台我刚刚……

X AI KOLs Following ↗ · 2026-05-26 缓存

一位用户报告成功在较老的 RTX 1070 GPU 上本地运行 Qwen3 8B，展示了现代大语言模型在十年前的硬件上也能表现出不错的性能。

0 人收藏 0 人点赞

#qwen3

ETCHR：编辑以澄清和利用推理

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

ETCHR是一种新颖的图像编辑方法，它将视觉推理与图像生成解耦，采用两阶段训练过程（推理模仿和推理增强）来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上，Pass@1持续提升4-5%。

0 人收藏 0 人点赞

qwen3

提交意见反馈