@askalphaxiv: “Probabilistic Tiny Recursive Model” 本文通过在测试时添加高斯噪声使Tiny Recursive Models随机化…

X AI KOLs Timeline 论文

摘要

本文介绍了一种方法,通过在测试时添加高斯噪声并进行并行推理,使Tiny Recursive Models随机化,在不重新训练的情况下,在PPBench和Sudoku-Extreme上取得了显著的性能提升。

“Probabilistic Tiny Recursive Model” 本文通过在测试时添加高斯噪声、运行并行推理,并利用已有的Q头选择最佳答案,使Tiny Recursive Models随机化。无需重新训练,无需任务特定技巧,其PPBench从62.6%跃升至91.2%,Sudoku-Extreme从87.4%跃升至98.75%。
查看原文

相似文章

@Xudong07452910: 推荐一本免费的 AI 书:《Agentic AI 漫游指南》。 我刚开始读,感觉它和很多「AI 入门指南」不太一样。 虽然也有基础知识,但作者明显没有把主要篇幅放在那些已经被反复讲过的概念上,而是一路讲到强化学习 RL、推理 Reason…

X AI KOLs Timeline

推荐一本免费的AI书《Agentic AI 漫游指南》,它深入讲解强化学习、推理、评测等概念,不同于普通入门指南,帮助理解AI工作机制。该书源自arXiv预印本。

Token最小化不等于上下文纪律

Reddit r/AI_Agents

这篇文章区分了AI使用中的Token最小化和上下文纪律,强调高效的提示词优化并不等同于保持正确的上下文意识。

Tandem Reinforcement Learning with Verifiable Rewards

arXiv cs.AI

提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式扩展到基于可验证奖励的强化学习(RLVR),以提升推理在较弱模型和人类中的兼容性与可读性。结果表明,TRL在保持单模型性能的同时,增强了交接鲁棒性并减少了分布偏移。