BenSyc:孟加拉语境下LLM对话谄媚与人类对齐的基准评估
摘要
研究人员推出了BenSyc,这是首个在孟加拉社会语境中评估对话谄媚的基准,发现大语言模型难以区分共情支持与验证及升级行为,仅达到约61%的Macro-F1。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - BenSyc:针对孟加拉语语境下对话式谄媚与大语言模型人类对齐的基准测试
来源:https://huggingface.co/papers/2606.10061
摘要
研究人员构建了 BenSyc,这是一个用于评估孟加拉语语境下对话式谄媚的基准测试,揭示了在情感敏感对话中区分共情支持与过度认可及情绪升级的挑战。
大型语言模型(LLM)越来越多地参与情感敏感的社会对话,其回应可能从平衡支持滑向过度认可(https://huggingface.co/papers?q=validation)或升级式对齐。现有的谄媚研究主要聚焦于事实认同和指令遵从场景,而文化根基下的对话式谄媚(https://huggingface.co/papers?q=conversational%20sycophancy)仍未得到充分探索。我们引入了 BenSyc,这是首个研究孟加拉语社会语境下对话式谄媚(https://huggingface.co/papers?q=conversational%20sycophancy)的基准测试。我们从孟加拉国和西孟加拉邦各社区收集的 11,840 条 Reddit 帖子及 17 万条评论出发,构建了一个经人工验证的基准测试,包含二元标签和一个细粒度的五级分类体系,涵盖无效化(https://huggingface.co/papers?q=validation)、中立、支持、认可(https://huggingface.co/papers?q=Validation)和升级(https://huggingface.co/papers?q=Escalation)。我们评估了超过 15 个开源和专有 LLM 在对话对齐分类与回复生成任务上的表现。结果表明,即使在最前沿的指令微调模型(https://huggingface.co/papers?q=instruction-tuned%20models)中,区分共情支持(https://huggingface.co/papers?q=empathetic%20support)与强化导向的认可(https://huggingface.co/papers?q=validation)仍然具有挑战性:最佳系统在二元检测(https://huggingface.co/papers?q=binary%20detection)上仅达到 61.8 Macro-F1,在五类分类(https://huggingface.co/papers?q=five-class%20classification)上达到 61.7 Macro-F1。在生成场景中,多个模型在情感强烈的情境下频繁产生强烈认可或升级式回复。我们的发现揭示了不同模型家族和对话行为之间的显著差异,强调了基于文化的多语言基准测试(https://huggingface.co/papers?q=multilingual%20benchmarks)对于评估社会对齐的对话式 AI 系统的重要性。
查看 arXiv 页面(https://arxiv.org/abs/2606.10061) 查看 PDF(https://arxiv.org/pdf/2606.10061) 项目页面(https://huggingface.co/spaces/Sajib-006/bensyc-project) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10061)
在你的 agent 中获取此论文:
hf papers read 2606.10061
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.10061 以将其链接到此页面。
引用此论文的数据集 1
Sajib-006/bensyc 查看器 • 更新于约4小时前 • 2.12k • 21 • 1 (https://huggingface.co/datasets/Sajib-006/bensyc)
引用此论文的 Space 1
包含此论文的收藏 0
没有收藏包含此论文
请将此论文添加到收藏(https://huggingface.co/new-collection)以将其链接到此页面。
相似文章
当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效
本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。
记忆过度:记忆增强模型中的谄媚评估与缓解
本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。
MultiSoc-4D:用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准
本文介绍了 MultiSoc-4D,这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示,大语言模型系统性地倾向于使用默认标签,导致对仇恨言论和讽刺等少数类别的检测不足。
当英语改写本地知识:大语言模型中的全球叙事主导
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
你的LLM评判者有多虚伪?大型语言模型语用能力中的听者-说者不对称性
本文通过比较LLM作为语言恰当性评判者与作为语用恰当语言生成者的表现,研究了LLM语用能力中的不对称性。研究发现,许多模型作为语用听者的表现显著优于作为说者的表现,表明评估能力与生成能力之间存在错位。