human-alignment

#human-alignment

训练治疗性评判器与多智能体系统以实现与人类对齐的心理健康支持

arXiv cs.CL ↗ · 2天前缓存

本文介绍了TheraJudge和TheraAgent，这是一个利用多维度人类对齐评估来改进大语言模型治疗性回复生成的框架，在质量和安全性方面取得了显著提升。

0 人收藏 0 人点赞

#human-alignment

Counsel：面向智能体任务的元评估数据集

Hugging Face Daily Papers ↗ · 2026-06-19 缓存

Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集，专为智能体任务设计，旨在提升自动化评估方法的校准性与可靠性。

0 人收藏 0 人点赞

#human-alignment

大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出了一些简单的提示策略，帮助大语言模型更好地捕捉人类判断的完整分布，从而在道德场景和信念方面提升与人类的对齐效果。作者表明，让模型报告标准差和响应比例，同时确保场景清晰度，能够获得与人类反应更一致的结果。

0 人收藏 0 人点赞

#human-alignment

LLM-as-Judge的几何学：为何LLM间共识并非人类对齐

arXiv cs.CL ↗ · 2026-06-03 缓存

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致，但与人类仅弱相关，发现LLM间共识在主观评分标准上反映的是坍塌子空间，而非真正的人类对齐。基于人类数据的后验校准提高了对齐，但即使经过校准的LLM也未达到人类的可靠性。

0 人收藏 0 人点赞

#human-alignment

大语言模型不确定性中的人类对齐、校准与激活模式

arXiv cs.CL ↗ · 2026-06-01 缓存

本文研究大语言模型的不确定性与人类不确定性的相似程度，探讨LLMs在多个数据集上的对齐、校准和激活模式，以及指令微调的影响。

0 人收藏 0 人点赞

#human-alignment

Review Arcade：论LLM评审的人类对齐性与可操控性

arXiv cs.AI ↗ · 2026-05-29 缓存

本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度，发现对齐有限且变化较大。研究还表明，作者可以通过迭代修改论文来“操控”LLM评审以提高分数，多达35%的论文的总体分数出现了统计显著提升。

0 人收藏 0 人点赞

#human-alignment

JobBench：让智能体工作与人类意愿对齐

arXiv cs.AI ↗ · 2026-05-27 缓存

JobBench 是一个基于工人调查构建的基准，用于评估 AI 智能体在工人最希望自动化的任务上的表现，涵盖 35 个职业的 130 个任务，并配备详细的评分细则。

0 人收藏 0 人点赞

#human-alignment

Review Arcade：论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文利用1000份真实的ACL 2025投稿，研究了LLM生成的评审与人类判断的对齐情况。研究发现，两者的一致性有限，且在不同模型和提示词下存在不稳定性。此外，文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审，并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

0 人收藏 0 人点赞

#human-alignment

在人机对齐下借助AI辅助决策的学习

arXiv cs.LG ↗ · 2026-05-14 缓存

本文研究了在人机对齐条件下学习借助AI做出最优决策的问题，表明对齐可以降低学习的复杂度，并给出了遗憾界。

0 人收藏 0 人点赞

#human-alignment

让AI更像人类一样观察世界

Google DeepMind Blog ↗ · 2025-11-11 缓存

Google DeepMind在《自然》杂志发表了一篇论文，详细介绍了一种将AI视觉表征与人类认知结构对齐的方法，从而提升模型的鲁鲁棒性和可靠性。

0 人收藏 0 人点赞

human-alignment

提交意见反馈