human-ai-alignment

#human-ai-alignment

探究LLM风险决策中的结果层面相似性与机制层面一致性：来自圣彼得堡博弈的证据

Hugging Face Daily Papers ↗ · 2026-06-03

研究人员在圣彼得堡博弈中评估了28个LLM，以区分风险决策中的结果层面相似性与机制层面一致性，发现LLM通常产生类似人类的出价，但缺乏潜在的人类一致推理机制。该研究表明，行为对齐可能是表面的，敦促高风险评估应超越结果相似性。

0 人收藏 0 人点赞

#human-ai-alignment

arXiv cs.CL ↗ · 2026-05-12 缓存

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

0 人收藏 0 人点赞

#human-ai-alignment

Reddit r/singularity ↗ · 2026-05-10

本文认为，人工智能充当着“认知放大器”的角色，将瓶颈从执行层面转移至想象力层面，并形成一种可能导致人类意图与机器智能融合的反馈循环。文章强调，保持这些系统的开放性和广泛可用性至关重要，而非将其集中化。

0 人收藏 0 人点赞