high-stakes-decisions

#high-stakes-decisions

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

arXiv cs.AI ↗ · 2026-05-18 缓存

本文研究了指令微调的大语言模型如何在高风险决策（如抵押贷款承销）中表现出公平输出，同时保留有偏见的内部表征，表明这些隐藏偏见具有因果效力、非对称性，且可通过激活引导加以利用。

0 人收藏 0 人点赞