cultural-competence

#cultural-competence

CCBENCH：通过隐式信号规范评估LLM文化能力（基于健康查询）

arXiv cs.CL ↗ · 2026-07-08 缓存

介绍CCBench，一个通过健康查询和使用跨六种文化的角色评估LLM文化能力的框架，发现即使是最佳模型也仅有20-30%的回答具有文化适切性。

0 人收藏 0 人点赞

#cultural-competence

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍了 CAPRI，一个用于评估 LLMs 是否能够从对话线索中推断用户文化背景并相应调整回应（例如使用适当的计量单位）的数据集。实验表明，LLMs 能够推断文化背景，但除非明确提示，否则常常未能应用这一信息。

0 人收藏 0 人点赞

#cultural-competence

arXiv cs.CL ↗ · 2026-04-22 缓存

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准，用于检验大模型在真实文化场景下的表现；目前最佳模型仅得 44.48%，提升空间巨大。

0 人收藏 0 人点赞

#cultural-competence

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员推出了 x1，这是一类推理模型家族，能够针对每个具体实例自适应地选择最优语言进行推理，证实了在多语言及文化相关任务中，语言选择会对推理质量产生影响。

0 人收藏 0 人点赞