标签
提出了 Dialogue-SWE-Bench,这是一个用于评估编码代理通过与用户对话解决软件工程问题能力的基准测试。该研究还提出了一种基于角色设定的用户模拟器和一个能够提升对话能力的模式引导型代理。
ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。
介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。
Ψ-Bench是一个基准测试,用于评估大语言模型通过对话影响用户的能力,并整合用户画像以进行个性化说服。实验表明,即使是最先进的模型仍有改进空间,而获取客户画像能显著提升性能。
本文研究了在多轮对话中人类与大型语言模型之间的语言适应性,发现LLM过度趋同于用户风格,而人类适应LLM的方式与适应其他人类并无不同。
SwanVoice 是一种零样本文本转语音模型,专为富有表现力的长文本独白和对话合成而设计,结合了 VAE、流匹配 DiT 和扩散后训练,在丰富度和层次感得分上均优于现有基线模型。
Conv-to-Bench 是一个多阶段框架,能够自动将多轮用户-助手对话转化为结构化的、可验证的需求清单,用于评估大型语言模型在代码任务上的表现,以较低的计算成本实现了与人工编写的基准近乎完美的对齐。
本文介绍 Bot-Mod,一个通过多轮对话和基于吉布斯采样的方法识别多智能体系统中恶意意图的审核框架,并展示来自Moltbook的数据集用于评估。
Anthropic宣布将与宗教、哲学和文化团体开展一系列对话,以拓宽构建安全且有益AI的视角。这些对话旨在为像Claude这样的AI系统的道德形成提供参考。