SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估

Hugging Face Daily Papers 2026/06/04 00:00 论文

llm-mediation benchmark evaluation conflict-resolution multi-domain socio-cognitive proactive-mediation

摘要

SoCRATES提出了一个真实的多领域基准，用于评估主动式LLM调解器，显示顶尖模型在冲突解决中仅能弥合约三分之一的共识差距。

评估LLM调解器仍然具有挑战性，因为调解是一个实时轨迹，由争议方不断变化的情感、意图和背景塑造。现有的测试平台依赖于少数专家编写的领域，主要改变策略姿态，并对每一轮对话针对每个主题进行评分，引入了不相关话题的噪音。我们提出了SoCRATES，一个用于在真实的多领域测试平台上评估主动式LLM调解器的基准。它通过一个代理管道从真实冲突中构建场景，涵盖八个领域，探索五个社会认知适应维度（策略姿态、参与方组成、历史长度、情绪反应性和文化身份），并通过话题定位评估器仅对推动话题进展的对话轮次进行评分。该评估器与人类专家的一致性达到0.82，是每轮基线水平的两倍以上。在对八个前沿LLM进行基准测试后，我们发现即使是最强的调解器，在多样化和真实的测试平台上也只能弥合约三分之一未经调解的共识差距，性能在不同社会认知维度上差异显著，这突显出进展取决于对多样化条件的社会适应能力。

查看原文

查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - SoCRATES：面向跨领域和社会认知变化的主动式 LLM 调解可靠自动化评估

来源：https://huggingface.co/papers/2606.05563

摘要

SoCRATES 提出了一个现实的多领域基准，用于评估跨各种社会认知适应轴的主动式 LLM 调解器，结果表明即使是性能最好的模型也只能解决冲突中约三分之一的共识差距。

评估 LLM 调解器 (https://huggingface.co/papers?q=LLM%20mediators) 仍具挑战性，因为调解是一个由争议方不断变化的情绪、意图和情境塑造的实时轨迹 (https://huggingface.co/papers?q=real-time%20trajectory)。现有的测试平台依赖少数专家撰写的领域，主要变化策略姿态，并对每一轮针对每个主题进行评分，引入了偏离主题的噪声。我们引入了 SoCRATES，一个在现实、多领域测试平台 (https://huggingface.co/papers?q=multi-domain%20testbeds) 中评估主动式 LLM 调解器 (https://huggingface.co/papers?q=LLM%20mediators) 的基准。它通过一个代理流水线 (https://huggingface.co/papers?q=agentic%20pipeline) 从真实冲突中构建场景，覆盖八个领域，探测五个社会认知适应 (https://huggingface.co/papers?q=socio-cognitive%20adaptation) 轴（策略姿态、当事人组成、历史长度、情绪反应性和文化身份），并通过一个主题局部评估器 (https://huggingface.co/papers?q=topic-localized%20evaluator) 仅对推动该主题的轮次进行评分。该评估器与人类专家的对齐度达到 0.82，比每轮基线提高一倍以上。对八个前沿 LLM 进行基准测试后，我们发现即使在多样且现实的测试平台下，最强的调解器也只能弥合约三分之一的未调解共识差距 (https://huggingface.co/papers?q=consensus%20gap)，且性能因社会认知轴差异显著，突显出进展在于对不同条件的社会适应。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05563)
查看 PDF (https://arxiv.org/pdf/2606.05563)
项目页面 (https://disl-lab.github.io/SoCRATES/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05563)

在你的代理中获取此论文：

hf papers read 2606.05563

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05563 以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页面链接。

SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估

论文页面 - SoCRATES：面向跨领域和社会认知变化的主动式 LLM 调解可靠自动化评估

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

人类谈判的自动化调解器：通过结构化LLM流水线进行前期调解

前沿大语言模型中的领域级元认知监控：一份33个模型图谱

Counsel：面向智能体任务的元评估数据集

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

RoleConflictBench：用于评估大语言模型情境敏感性的角色冲突场景基准

提交意见反馈