transluce

标签

Cards List
#transluce

LLaMA 3.1-8B-Instruct中的框架条件道德计算:伦理推理的机械可解释性审计

arXiv cs.AI · 2026-06-16 缓存

本文使用机械可解释性对LLaMA 3.1-8B-Instruct中的伦理推理进行审计,发现了“情境锚定效应”,即特定领域的表征在道德计算中占主导地位,并提出了“机械对齐”作为研究计划。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈