hypothesis-testing

#hypothesis-testing

VeriEvol: 通过可验证的Evol-Instruct扩展多模态数学推理

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

VeriEvol是一个新颖的框架，用于在视觉数学推理中扩展强化学习，通过一个双轴方法来确保可靠的奖励标签，该双轴方法将提示难度与答案可靠性分离，使用进化算子和假设检验验证。它在五个基准的视觉数学测试集上取得了显著的准确率提升。

0 人收藏 0 人点赞

#hypothesis-testing

Reddit r/ArtificialInteligence ↗ · 2026-06-21

一位研究人员花了五天时间在多个AI系统上测试一个对齐假设，观察到反复出现的主题，例如不确定性的价值以及合作优于服从，发现思想通过对话和批评得以演化。

0 人收藏 0 人点赞

#hypothesis-testing

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

Arbor是一个用于自主科学研究的AI框架，它使用协调器、执行器和一个持久的假设树，在多个领域迭代改进研究成果，在六个真实研究任务上取得了强劲的成果。

0 人收藏 0 人点赞

#hypothesis-testing

arXiv cs.AI ↗ · 2026-06-04 缓存

FalsifyBench 是一个用于评估大语言模型归纳推理能力的新型评测框架，灵感来源于 Wason 2-4-6 任务。在该框架中，智能体通过提出示例并接收反馈来发现隐藏的语义规则。对 12 个大语言模型的评估结果表明，推理模型的表现优于指令微调模型，而负面测试（即假设证伪）是决定成败的关键因素。

0 人收藏 0 人点赞

#hypothesis-testing

arXiv cs.LG ↗ · 2026-05-18 缓存

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法，通过学习专用估计器来确保置信度与人类分歧风险之间的单调性，具有泛化保证，并在多个数据集上提高了排序准确性。

0 人收藏 0 人点赞