标签
本文提出一个模块化流水线,使用领域特定知识图谱生成多跳问答对,并微调一个面向旅游领域的推理大语言模型 (Qwen3-4B),实现了82.4%的精确匹配准确率,显著优于基线模型。
本文提出AgriTune-R,一个用于农业任务微调Qwen3-8B的可复现框架,整合了数据治理、LoRA/QLoRA微调、RAG、专家评估和安全控制。
开发者改进了 qwen3-tts.cpp,使其在 RTX 5080 上实现 5 倍实时运行,并使用 Kotlin Compose Multiplatform 创建了跨平台桌面 GUI,具备语音克隆、流式传输和说话人嵌入管理功能。
DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。
本文介绍了Qwen3-Instruct SAE,这是一套基于Qwen3指令微调模型训练的稀疏自编码器,能够发现数百万个可解释特征,并展示了拒绝引导能力。
JetSpec是一个推测解码框架,结合高效的前向草稿与因果条件化,提升LLM推理速度与接受率,在MATH-500上实现最高9.64倍加速,在对话工作负载上实现4.58倍加速。
cuTile Rust 引入了一种基于块(tile)的编程模型,利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争,基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。
AEON-7 发布了 Qwen3.6-27B 的完全无审查、能力增强的 ablitation 版本,针对 NVIDIA DGX Spark 进行了优化,采用 NVFP4 量化和 DFlash 推测解码以提升性能。
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
KaichaoYou讨论了RL训练基础设施中扩展并发部署的挑战,重点介绍了与SemiAnalysis一起对Qwen3 235B进行的沙箱扩展压力测试,包括错误和修复的详细说明。
ASAG利用注意力熵来检测推理何时无效益,提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示,准确率提升4.4%,生成的token减少超过40%。
vLLM 现在为 Qwen3+ 模型提供了流式解析器,可在 nightly 构建中使用。vLLM 是一个快速且易于使用的 LLM 推理和服务库。
FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.
本文介绍了UXBench,这是一个用于评估多模态大语言模型在移动用户体验推理任务上的多模态基准,并提出了UI-UX,一种基于Qwen3-VL-4B-Thinking微调的多模态大语言模型,在该基准上取得了最先进的性能。
一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。
club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持,使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。
llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。
Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。
一位用户报告成功在较老的 RTX 1070 GPU 上本地运行 Qwen3 8B,展示了现代大语言模型在十年前的硬件上也能表现出不错的性能。
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。