BenSyc:孟加拉语境下LLM对话谄媚与人类对齐的基准评估

Hugging Face Daily Papers 论文

摘要

研究人员推出了BenSyc,这是首个在孟加拉社会语境中评估对话谄媚的基准,发现大语言模型难以区分共情支持与验证及升级行为,仅达到约61%的Macro-F1。

大语言模型(LLMs)越来越多地参与情感敏感的社交对话,在这些对话中,回复可能从平衡的支持转向过度的验证或升级性对齐。现有的谄媚研究主要关注事实一致性和指令遵循场景,而忽视了文化背景下的对话谄媚。我们推出了BenSyc,这是首个研究孟加拉社会语境中对话谄媚的基准。我们从孟加拉国和西孟加拉邦社区的11,840个Reddit帖子及17万条评论出发,构建了一个经人工验证的基准,包含二分类标签和细粒度的五级分类体系,涵盖无效化、中立、支持、验证和升级。我们在对话对齐分类和回复生成任务上评估了超过15个开源和专有的大语言模型。结果表明,即使是最先进的指令微调模型,区分共情支持与强化导向的验证仍然具有挑战性:最佳系统在二分类检测中仅达到61.8 Macro-F1,在五分类中达到61.7 Macro-F1。在生成设置中,多个模型在情感强烈的情况下经常产生强烈的验证性或升级性回复。我们的发现强调了不同模型家族和对话行为之间的显著差异,凸显了基于文化的多语言基准在评估社会对齐的对话AI系统中的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - BenSyc:针对孟加拉语语境下对话式谄媚与大语言模型人类对齐的基准测试

来源:https://huggingface.co/papers/2606.10061

摘要

研究人员构建了 BenSyc,这是一个用于评估孟加拉语语境下对话式谄媚的基准测试,揭示了在情感敏感对话中区分共情支持与过度认可及情绪升级的挑战。

大型语言模型(LLM)越来越多地参与情感敏感的社会对话,其回应可能从平衡支持滑向过度认可(https://huggingface.co/papers?q=validation)或升级式对齐。现有的谄媚研究主要聚焦于事实认同和指令遵从场景,而文化根基下的对话式谄媚(https://huggingface.co/papers?q=conversational%20sycophancy)仍未得到充分探索。我们引入了 BenSyc,这是首个研究孟加拉语社会语境下对话式谄媚(https://huggingface.co/papers?q=conversational%20sycophancy)的基准测试。我们从孟加拉国和西孟加拉邦各社区收集的 11,840 条 Reddit 帖子及 17 万条评论出发,构建了一个经人工验证的基准测试,包含二元标签和一个细粒度的五级分类体系,涵盖无效化(https://huggingface.co/papers?q=validation)、中立、支持、认可(https://huggingface.co/papers?q=Validation)和升级(https://huggingface.co/papers?q=Escalation)。我们评估了超过 15 个开源和专有 LLM 在对话对齐分类与回复生成任务上的表现。结果表明,即使在最前沿的指令微调模型(https://huggingface.co/papers?q=instruction-tuned%20models)中,区分共情支持(https://huggingface.co/papers?q=empathetic%20support)与强化导向的认可(https://huggingface.co/papers?q=validation)仍然具有挑战性:最佳系统在二元检测(https://huggingface.co/papers?q=binary%20detection)上仅达到 61.8 Macro-F1,在五类分类(https://huggingface.co/papers?q=five-class%20classification)上达到 61.7 Macro-F1。在生成场景中,多个模型在情感强烈的情境下频繁产生强烈认可或升级式回复。我们的发现揭示了不同模型家族和对话行为之间的显著差异,强调了基于文化的多语言基准测试(https://huggingface.co/papers?q=multilingual%20benchmarks)对于评估社会对齐的对话式 AI 系统的重要性。

查看 arXiv 页面(https://arxiv.org/abs/2606.10061) 查看 PDF(https://arxiv.org/pdf/2606.10061) 项目页面(https://huggingface.co/spaces/Sajib-006/bensyc-project) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10061)

在你的 agent 中获取此论文:

hf papers read 2606.10061

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.10061 以将其链接到此页面。

引用此论文的数据集 1

Sajib-006/bensyc 查看器 • 更新于约4小时前 • 2.12k • 21 • 1 (https://huggingface.co/datasets/Sajib-006/bensyc)

引用此论文的 Space 1

包含此论文的收藏 0

没有收藏包含此论文

请将此论文添加到收藏(https://huggingface.co/new-collection)以将其链接到此页面。

相似文章

记忆过度:记忆增强模型中的谄媚评估与缓解

arXiv cs.AI

本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。

当英语改写本地知识:大语言模型中的全球叙事主导

arXiv cs.CL

本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。