full-duplex

#full-duplex

TurnNat：双人对话中轮流发言自然性的自动评估

arXiv cs.CL ↗ · 3小时前缓存

TurnNat是一种基于似然的框架，用于自动评估双人对话中的轮流发言自然性，它使用在自然对话上训练的因果轮流发言预测模型，通过负对数似然来测量时间异常性。

0 人收藏 0 人点赞

#full-duplex

BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话

arXiv cs.CL ↗ · 2026-06-15 缓存

BayLing-Duplex是一种原生全双工语音语言模型，使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断，实现了高成功率，并相比先前模型提升了回复质量。

0 人收藏 0 人点赞

#full-duplex

通过激活引导克服全双工语音语言模型中的状态惯性

arXiv cs.CL ↗ · 2026-06-11 缓存

本文识别了全双工语音语言模型中的"状态惯性"，即在用户打断时，模型的内部预测焦点滞后，并提出了一种无需训练的激活引导方法来改善打断处理。

0 人收藏 0 人点赞

#full-duplex

@kyutai_labs: 新论文：全双工语音模型中的多面互动对齐我们使用强化学习对语音模型（Mo…

X AI KOLs Following ↗ · 2026-06-10 缓存

Kyutai Labs 发布了一篇新论文，使用强化学习对语音模型（Moshi 和 PersonaPlex）进行后训练，以实现更像人类的交互，包括何时回应、等待或发出倾听提示。

0 人收藏 0 人点赞

#full-duplex

全双工 vs 半双工——AI语音模型的频谱 [D]

Reddit r/MachineLearning ↗ · 2026-06-01

对AI语音模型中半双工与全双工架构的分析，讨论了重叠、反馈和打断等关键特性，这些特性使语音助手听起来很机械。

0 人收藏 0 人点赞

#full-duplex

Raon-Speech 技术报告

arXiv cs.CL ↗ · 2026-05-26 缓存

Raon-Speech是一个9B参数的语音语言模型，支持英语和韩语的理解、回答和生成，并具有全双工扩展Raon-SpeechChat，可实现自然的实时对话。它在42个基准测试上取得了强劲的性能，并且完全开源。

0 人收藏 0 人点赞

#full-duplex

全双工语音对话模型中的同步与话轮转换

arXiv cs.CL ↗ · 2026-05-21 缓存

本文通过模拟两个Moshi模型实例之间的对话，利用CKA测量表征对齐并使用LSTM探针预测话轮边界，分析了全双工语音对话模型中的同步与话轮转换动态。

0 人收藏 0 人点赞

#full-duplex

@rohanpaul_ai: 就在几天前，Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

X AI KOLs Following ↗ · 2026-05-17 缓存

Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5，这是一个 9B 参数的全双工全模态模型，采用 Omni-Flow 框架，支持连续、时间对齐的实时视频和语音交互，超越了之前的模型，并以开源形式提供。

0 人收藏 0 人点赞

#full-duplex

@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…

X AI KOLs Following ↗ · 2026-05-11 缓存

Mira Murati 团队展示了全新交互模型预览版，该模型从头训练，原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。

1 人收藏 1 人点赞

#full-duplex

EchoChain：面向中断场景的全双工状态更新推理基准

arXiv cs.CL ↗ · 2026-04-21 缓存

EchoChain 是一项全新基准测试，旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式（上下文惯性、中断遗忘、目标偏移），结果表明，在当前评估的实时语音模型中，无一系统的通过率突破 50%。

0 人收藏 0 人点赞

#full-duplex

MoshiRAG：面向全双工语音语言模型的异步知识检索

arXiv cs.CL ↗ · 2026-04-20 缓存

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合，在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识，而不会打断对话的自然流程。

0 人收藏 0 人点赞

#full-duplex

MTR-DuplexBench：全双工语音语言模型多轮对话的综合评估基准

arXiv cs.CL ↗ · 2026-04-20 缓存

MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准，解决轮转边界模糊和上下文不一致等挑战，同时评估对话特征、对话质量、指令遵循和安全性。

0 人收藏 0 人点赞

full-duplex

提交意见反馈