@NielsRogge: 刚把这篇文章作为项目页面添加到 https://paperswithcode.co/paper/2410.00037…！希望更多人能了解……

X AI KOLs Following 2026/06/18 16:11 论文

full-duplex-voice voice-models open-source moshi blog tutorial papers-with-code

摘要

NielsRogge 将一篇介绍 Moshi 全双工语音模型的博客作为项目页面添加到了 Papers With Code，旨在让更多人了解这一先进架构。

刚把这篇文章作为项目页面添加到 https://t.co/6yQIMR6Ltn！希望更多人能通过这种方式了解最先进的全双工语音模型 :) https://t.co/IcZwVCjIp2

查看原文

查看缓存全文

缓存时间: 2026/06/18 18:10

刚刚将这篇博客作为项目页面添加到了 https://t.co/6yQIMR6Ltn！

希望这样能让更多人了解到最先进的全双工语音模型 :) https://t.co/IcZwVCjIp2

rohit (@bicro_):
Moshi 是目前最优秀的开源全双工语音模型之一。其架构非常密集，我们花了几天时间深入研究，并将学习成果整理成文，附上图表以帮助快速理解。

如果对你有帮助，请告诉我们 🤠

相似文章

X AI KOLs Following

Kyutai Labs 发布了一篇新论文，使用强化学习对语音模型（Moshi 和 PersonaPlex）进行后训练，以实现更像人类的交互，包括何时回应、等待或发出倾听提示。

X AI KOLs Following

NielsRogge宣布PapersWithCode复兴，该平台按领域提供SOTA、排行榜和方法，并使用AI智能体大规模解析。

arXiv cs.CL

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合，在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识，而不会打断对话的自然流程。

X AI KOLs Following

Papers With Code 推出了一项功能，可按领域浏览所有 CVPR 2026 被接受的论文，并提供代码、项目页面和 Hugging Face 工件的链接，包括 Oral 和 Spotlight 论文。

arXiv cs.CL

本文通过模拟两个Moshi模型实例之间的对话，利用CKA测量表征对齐并使用LSTM探针预测话轮边界，分析了全双工语音对话模型中的同步与话轮转换动态。