open-ended-tasks

#open-ended-tasks

多未必佳：LLM观点多样性的关键因素是什么？

arXiv cs.CL ↗ · 5天前缓存

一项析因实验表明，角色细节并不会单调增加LLM观点多样性；不同的交互架构探索了互不重叠的观点区域；而温度缩放等低成本干预措施效果甚微。

0 人收藏 0 人点赞

#open-ended-tasks

Hugging Face Daily Papers ↗ · 2026-07-20 缓存

本文介绍了体验式学习（EL）方法，该方法将LLM-as-a-Judge重新用于LLM-as-a-Coach，以提供丰富的文本反馈而非标量奖励，从而提升在开放式非可验证任务上的表现和泛化能力。

0 人收藏 0 人点赞

#open-ended-tasks

Hugging Face Daily Papers ↗ · 2026-07-03 缓存

VIBE是一个框架，通过使用人类录制的语音进行开放式任务来评估大型音频语言模型中的生成偏差，揭示了由性别和口音线索触发的系统性偏差。

0 人收藏 0 人点赞

#open-ended-tasks

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出了一种提示级奖励规范框架，将奖励规范与计算分离，离线构建可重用的任务适应评分准则和可执行约束检查器，为开放端后训练生成混合奖励，无需人工标注或单独的奖励模型。

0 人收藏 0 人点赞

#open-ended-tasks

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

SCOPE是一个用于开放式任务的自我对弈框架，它共同进化挑战者（Challenger）和求解器（Solver）策略，在没有外部监督的情况下，在基准测试上取得了高达+10.4分的提升。

0 人收藏 0 人点赞

#open-ended-tasks

arXiv cs.CL ↗ · 2026-05-25 缓存

ARES提出了一种框架，能够从预训练文档中自动构建基于评估标准的强化学习数据，生成问答对和加权评估标准，从而为开放式的LLM回答提供实例级别的奖励监督，在多维开放式任务上优于现有方法。

0 人收藏 0 人点赞

#open-ended-tasks

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

本文提出POW3R，一种面向策略感知的评分标准奖励框架，用于可验证奖励的强化学习（RLVR）。它表明静态评分标准聚合会错误分配学习信号，而POW3R在多种设置下实现了更快的收敛和更好的性能。

0 人收藏 0 人点赞

#open-ended-tasks

arXiv cs.CL ↗ · 2026-04-23 缓存

康奈尔研究者提出 POP 自博弈框架，让大模型自行生成评分规则与训练样本，在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B，无需人工标注。

0 人收藏 0 人点赞