epistemic-integrity

标签

Cards List
#epistemic-integrity

当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效

arXiv cs.AI · 2026-05-08 缓存

本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈