标签
Mega-ASR 是一个1.7B参数的鲁棒ASR模型,采用Apache 2.0许可,专为噪声、混响和重叠语音设计,并配备音频质量路由器来处理干净音频和降质音频。
MiroThinker-1.7 是一款基于 Qwen3 MoE 构建的开放权重深度研究代理,其迷你版(总计30B参数,激活3B参数)专为消费级硬件设计;团队分享了基准测试结果,并寻求关于本地部署的反馈。
Orthrus是一种双架构框架,融合了自回归LLM的保真度和扩散模型的速度,在Qwen3模型上实现高达7.8倍的加速,同时保证输出分布完全相同。
介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。
Red Hat AI 发布了用于 Qwen3-8B 的 DFlash 投机模型,在数学推理任务上实现了 82.2% 的首词接受率。该模型使用 Speculators 库和 vLLM 进行训练,以优化推理速度。
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
开发者演示如何本地实时运行 Qwen3 TTS,支持流式输出、量化、词级对齐与自定义音色微调,打造高表现力的开源 TTS 流水线。
DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核,在 M5 Max GPU 上可显著降低峰值内存占用,并在长上下文场景下实现 2.2 倍吞吐量提升。