qwen3

标签

Cards List
#qwen3

llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试(t/s)

Reddit r/LocalLLaMA · 昨天

llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。

0 人收藏 0 人点赞
#qwen3

Domino:在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers · 2026-05-28 缓存

Domino是一个推测解码框架,它将因果依赖建模与自回归草稿生成解耦,采用并行主干和轻量级因果精炼头,在Qwen3模型上实现了高达5.49倍的端到端加速。

0 人收藏 0 人点赞
#qwen3

@tunguz: 看到这些推文后,我决定在我那台装有 RTX 1070 GPU 的老旧 Ubuntu 电脑上试试(就是那台我刚刚……

X AI KOLs Following · 2026-05-26 缓存

一位用户报告成功在较老的 RTX 1070 GPU 上本地运行 Qwen3 8B,展示了现代大语言模型在十年前的硬件上也能表现出不错的性能。

0 人收藏 0 人点赞
#qwen3

ETCHR:编辑以澄清和利用推理

Hugging Face Daily Papers · 2026-05-22 缓存

ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。

0 人收藏 0 人点赞
#qwen3

@AdinaYakup: Mega-ASR https://huggingface.co/zhifeixie/Mega-ASR… 1.7B 参数,Apache 2.0,专为噪声/混响/截断/重叠说话人场景设计…

X AI KOLs Following · 2026-05-21 缓存

Mega-ASR 是一个1.7B参数的鲁棒ASR模型,采用Apache 2.0许可,专为噪声、混响和重叠语音设计,并配备音频质量路由器来处理干净音频和降质音频。

0 人收藏 0 人点赞
#qwen3

MiroThinker-1.7,一款开放权重的深度研究代理(基于Qwen3 MoE)——迷你版为30B/3B激活参数,好奇大家在消费级硬件上能达到多少tok/s

Reddit r/LocalLLaMA · 2026-05-17

MiroThinker-1.7 是一款基于 Qwen3 MoE 构建的开放权重深度研究代理,其迷你版(总计30B参数,激活3B参数)专为消费级硬件设计;团队分享了基准测试结果,并寻求关于本地部署的反馈。

0 人收藏 0 人点赞
#qwen3

Orthrus-Qwen3:在Qwen3上实现高达7.8倍的每前向传递令牌数,输出分布完全相同

Hacker News Top · 2026-05-15 缓存

Orthrus是一种双架构框架,融合了自回归LLM的保真度和扩散模型的速度,在Qwen3模型上实现高达7.8倍的加速,同时保证输出分布完全相同。

0 人收藏 0 人点赞
#qwen3

Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致

Reddit r/LocalLLaMA · 2026-05-15

介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。

0 人收藏 0 人点赞
#qwen3

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型!在数学推理任务上首词接受率高达 82.2%,每步平均接受 3.74 个 token……

X AI KOLs Following · 2026-05-10 缓存

Red Hat AI 发布了用于 Qwen3-8B 的 DFlash 投机模型,在数学推理任务上实现了 82.2% 的首词接受率。该模型使用 Speculators 库和 vLLM 进行训练,以优化推理速度。

0 人收藏 0 人点赞
#qwen3

MemReranker:面向智能体记忆检索的推理感知重排序

arXiv cs.CL · 2026-05-08 缓存

MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。

0 人收藏 0 人点赞
#qwen3

Qwen3 TTS 被严重低估了——我本地实时跑通后,发现它是目前最有表现力的开源 TTS 之一

Reddit r/LocalLLaMA · 2026-04-22

开发者演示如何本地实时运行 Qwen3 TTS,支持流式输出、量化、词级对齐与自定义音色微调,打造高表现力的开源 TTS 流水线。

0 人收藏 0 人点赞
#qwen3

@bstnxbt:DFlash v0.1.4:为量化版 Qwen3 混合模型提供自定义 Metal 验证内核,并显著降低峰值内存占用……

X AI KOLs Following · 2026-04-18 缓存

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核,在 M5 Max GPU 上可显著降低峰值内存占用,并在长上下文场景下实现 2.2 倍吞吐量提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈