human-ai-alignment

标签

Cards List
#human-ai-alignment

探究LLM风险决策中的结果层面相似性与机制层面一致性:来自圣彼得堡博弈的证据

Hugging Face Daily Papers · 2026-06-03

研究人员在圣彼得堡博弈中评估了28个LLM,以区分风险决策中的结果层面相似性与机制层面一致性,发现LLM通常产生类似人类的出价,但缺乏潜在的人类一致推理机制。该研究表明,行为对齐可能是表面的,敦促高风险评估应超越结果相似性。

0 人收藏 0 人点赞
#human-ai-alignment

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL · 2026-05-12 缓存

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

0 人收藏 0 人点赞
#human-ai-alignment

认知放大器:争夺你大脑的战斗已经打响

Reddit r/singularity · 2026-05-10

本文认为,人工智能充当着“认知放大器”的角色,将瓶颈从执行层面转移至想象力层面,并形成一种可能导致人类意图与机器智能融合的反馈循环。文章强调,保持这些系统的开放性和广泛可用性至关重要,而非将其集中化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈