SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估
摘要
SoCRATES提出了一个真实的多领域基准,用于评估主动式LLM调解器,显示顶尖模型在冲突解决中仅能弥合约三分之一的共识差距。
查看缓存全文
缓存时间: 2026/06/08 11:15
论文页面 - SoCRATES:面向跨领域和社会认知变化的主动式 LLM 调解可靠自动化评估
来源:https://huggingface.co/papers/2606.05563
摘要
SoCRATES 提出了一个现实的多领域基准,用于评估跨各种社会认知适应轴的主动式 LLM 调解器,结果表明即使是性能最好的模型也只能解决冲突中约三分之一的共识差距。
评估 LLM 调解器 (https://huggingface.co/papers?q=LLM%20mediators) 仍具挑战性,因为调解是一个由争议方不断变化的情绪、意图和情境塑造的实时轨迹 (https://huggingface.co/papers?q=real-time%20trajectory)。现有的测试平台依赖少数专家撰写的领域,主要变化策略姿态,并对每一轮针对每个主题进行评分,引入了偏离主题的噪声。我们引入了 SoCRATES,一个在现实、多领域测试平台 (https://huggingface.co/papers?q=multi-domain%20testbeds) 中评估主动式 LLM 调解器 (https://huggingface.co/papers?q=LLM%20mediators) 的基准。它通过一个代理流水线 (https://huggingface.co/papers?q=agentic%20pipeline) 从真实冲突中构建场景,覆盖八个领域,探测五个社会认知适应 (https://huggingface.co/papers?q=socio-cognitive%20adaptation) 轴(策略姿态、当事人组成、历史长度、情绪反应性和文化身份),并通过一个主题局部评估器 (https://huggingface.co/papers?q=topic-localized%20evaluator) 仅对推动该主题的轮次进行评分。该评估器与人类专家的对齐度达到 0.82,比每轮基线提高一倍以上。对八个前沿 LLM 进行基准测试后,我们发现即使在多样且现实的测试平台下,最强的调解器也只能弥合约三分之一的未调解共识差距 (https://huggingface.co/papers?q=consensus%20gap),且性能因社会认知轴差异显著,突显出进展在于对不同条件的社会适应。
查看 arXiv 页面 (https://arxiv.org/abs/2606.05563)
查看 PDF (https://arxiv.org/pdf/2606.05563)
项目页面 (https://disl-lab.github.io/SoCRATES/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05563)
在你的代理中获取此论文:
hf papers read 2606.05563
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。
引用此论文的 Spaces0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页面链接。
相似文章
人类谈判的自动化调解器:通过结构化LLM流水线进行前期调解
本文介绍了一种用于人类谈判的自动化调解器,它使用结构化LLM模块流水线进行前期调解。在人类受试者实验中,该系统在偏好推断方面降低了误差,同时实现了与专业人类调解员相当的准备效果。
前沿大语言模型中的领域级元认知监控:一份33个模型图谱
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。
Counsel:面向智能体任务的元评估数据集
Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
RoleConflictBench:用于评估大语言模型情境敏感性的角色冲突场景基准
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。