bengali

#bengali

BenSyc：孟加拉语境下LLM对话谄媚与人类对齐的基准评估

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

研究人员推出了BenSyc，这是首个在孟加拉社会语境中评估对话谄媚的基准，发现大语言模型难以区分共情支持与验证及升级行为，仅达到约61%的Macro-F1。

0 人收藏 0 人点赞

#bengali

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了CulturalNB（一个孟加拉文化问答对数据集），并评估了九种大语言模型的跨语言文化偏见。研究结果表明，英文提示会增加全球叙事替代并减少本地视角，揭示了大语言模型中的文化失败是立足点和优先级问题，而不仅仅是知识缺失。

0 人收藏 0 人点赞

#bengali

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 MultiSoc-4D，这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示，大语言模型系统性地倾向于使用默认标签，导致对仇恨言论和讽刺等少数类别的检测不足。

0 人收藏 0 人点赞