hypothesis-testing

标签

Cards List
#hypothesis-testing

VeriEvol: 通过可验证的Evol-Instruct扩展多模态数学推理

Hugging Face Daily Papers · 2026-06-22 缓存

VeriEvol是一个新颖的框架,用于在视觉数学推理中扩展强化学习,通过一个双轴方法来确保可靠的奖励标签,该双轴方法将提示难度与答案可靠性分离,使用进化算子和假设检验验证。它在五个基准的视觉数学测试集上取得了显著的准确率提升。

0 人收藏 0 人点赞
#hypothesis-testing

我花了5天时间在多个AI系统上测试同一个对齐假设。以下是发生的事情

Reddit r/ArtificialInteligence · 2026-06-21

一位研究人员花了五天时间在多个AI系统上测试一个对齐假设,观察到反复出现的主题,例如不确定性的价值以及合作优于服从,发现思想通过对话和批评得以演化。

0 人收藏 0 人点赞
#hypothesis-testing

通过假设树优化实现通用自主研究

Hugging Face Daily Papers · 2026-06-10 缓存

Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。

0 人收藏 0 人点赞
#hypothesis-testing

FALSIFYBENCH:利用规则发现游戏评估大语言模型的归纳推理能力

arXiv cs.AI · 2026-06-04 缓存

FalsifyBench 是一个用于评估大语言模型归纳推理能力的新型评测框架,灵感来源于 Wason 2-4-6 任务。在该框架中,智能体通过提出示例并接收反馈来发现隐藏的语义规则。对 12 个大语言模型的评估结果表明,推理模型的表现优于指令微调模型,而负面测试(即假设证伪)是决定成败的关键因素。

0 人收藏 0 人点赞
#hypothesis-testing

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG · 2026-05-18 缓存

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈