标签
本文研究了关于大型视觉语言模型(LVLMs)能否协调高效指代表达的看似矛盾的发现。作者表明,当明确提示时,模型可以实现效率,但从隐式提示中无法推断出效率需求,揭示了人类与AI通信之间的关键差异。
本文通过模拟两个Moshi模型实例之间的对话,利用CKA测量表征对齐并使用LSTM探针预测话轮边界,分析了全双工语音对话模型中的同步与话轮转换动态。
本文使用多模态特征(声学、面部、轮流说话)分析自发性双人Zoom对话,以识别对话成功感知的标记,发现语音和面部运动的协调与更高的互动质量相关。