标签
本文分析了来自75个国家的1500份开放式回答,揭示了人们对AI的偏好多样且常常相互冲突,其中真实是唯一被广泛需求的价值(49%),但定义方式却互不兼容。研究认为,当前的RLHF方法将这些多元偏好扁平化为通用奖励模型,延续了认知暴力。
本文提出一种多轮提示验证方法,以提升量化LLM(LLaMA-3.1 8B)在定性分析中的性能,减少幻觉,并在不同量化级别(8位、4位、3位、2位)下提高稳定性。
哥伦比亚与西北大学研究者提出一套流程,揭示大模型在抽象摘要生命故事访谈时对种族与性别存在的偏见,并指出表征伤害风险。