full-duplex

标签

Cards List
#full-duplex

TurnNat:双人对话中轮流发言自然性的自动评估

arXiv cs.CL · 3小时前 缓存

TurnNat是一种基于似然的框架,用于自动评估双人对话中的轮流发言自然性,它使用在自然对话上训练的因果轮流发言预测模型,通过负对数似然来测量时间异常性。

0 人收藏 0 人点赞
#full-duplex

BayLing-Duplex: 单一自回归大语言模型实现原生全双工语音对话

arXiv cs.CL · 2026-06-15 缓存

BayLing-Duplex是一种原生全双工语音语言模型,使单一自回归大语言模型无需外部VAD模块即可管理轮流发言与打断,实现了高成功率,并相比先前模型提升了回复质量。

0 人收藏 0 人点赞
#full-duplex

通过激活引导克服全双工语音语言模型中的状态惯性

arXiv cs.CL · 2026-06-11 缓存

本文识别了全双工语音语言模型中的"状态惯性",即在用户打断时,模型的内部预测焦点滞后,并提出了一种无需训练的激活引导方法来改善打断处理。

0 人收藏 0 人点赞
#full-duplex

@kyutai_labs: 新论文:全双工语音模型中的多面互动对齐 我们使用强化学习对语音模型(Mo…

X AI KOLs Following · 2026-06-10 缓存

Kyutai Labs 发布了一篇新论文,使用强化学习对语音模型(Moshi 和 PersonaPlex)进行后训练,以实现更像人类的交互,包括何时回应、等待或发出倾听提示。

0 人收藏 0 人点赞
#full-duplex

全双工 vs 半双工——AI语音模型的频谱 [D]

Reddit r/MachineLearning · 2026-06-01

对AI语音模型中半双工与全双工架构的分析,讨论了重叠、反馈和打断等关键特性,这些特性使语音助手听起来很机械。

0 人收藏 0 人点赞
#full-duplex

Raon-Speech 技术报告

arXiv cs.CL · 2026-05-26 缓存

Raon-Speech是一个9B参数的语音语言模型,支持英语和韩语的理解、回答和生成,并具有全双工扩展Raon-SpeechChat,可实现自然的实时对话。它在42个基准测试上取得了强劲的性能,并且完全开源。

0 人收藏 0 人点赞
#full-duplex

全双工语音对话模型中的同步与话轮转换

arXiv cs.CL · 2026-05-21 缓存

本文通过模拟两个Moshi模型实例之间的对话,利用CKA测量表征对齐并使用LSTM探针预测话轮边界,分析了全双工语音对话模型中的同步与话轮转换动态。

0 人收藏 0 人点赞
#full-duplex

@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

X AI KOLs Following · 2026-05-17 缓存

Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。

0 人收藏 0 人点赞
#full-duplex

@miramurati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time inter…

X AI KOLs Following · 2026-05-11 缓存

Mira Murati 团队展示了全新交互模型预览版,该模型从头训练,原生支持全双工实时音视频对话、即时打断、多语言翻译及动态多任务处理。演示验证了其在低延迟流式交互、多模态感知与并发任务执行方面的核心能力。

1 人收藏 1 人点赞
#full-duplex

EchoChain:面向中断场景的全双工状态更新推理基准

arXiv cs.CL · 2026-04-21 缓存

EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。

0 人收藏 0 人点赞
#full-duplex

MoshiRAG:面向全双工语音语言模型的异步知识检索

arXiv cs.CL · 2026-04-20 缓存

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合,在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识,而不会打断对话的自然流程。

0 人收藏 0 人点赞
#full-duplex

MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准

arXiv cs.CL · 2026-04-20 缓存

MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈