标签
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
学术研究揭示大模型存在系统性反事实不公:特权者讲的笑话被拒绝率高出67%,且被判定为更恶意,而内容完全相同的笑话若出自边缘群体则待遇相反。