@askalphaxiv: “Probabilistic Tiny Recursive Model” 本文通过在测试时添加高斯噪声使Tiny Recursive Models随机化…
摘要
本文介绍了一种方法,通过在测试时添加高斯噪声并进行并行推理,使Tiny Recursive Models随机化,在不重新训练的情况下,在PPBench和Sudoku-Extreme上取得了显著的性能提升。
“Probabilistic Tiny Recursive Model” 本文通过在测试时添加高斯噪声、运行并行推理,并利用已有的Q头选择最佳答案,使Tiny Recursive Models随机化。无需重新训练,无需任务特定技巧,其PPBench从62.6%跃升至91.2%,Sudoku-Extreme从87.4%跃升至98.75%。
相似文章
@Xudong07452910: 推荐一本免费的 AI 书:《Agentic AI 漫游指南》。 我刚开始读,感觉它和很多「AI 入门指南」不太一样。 虽然也有基础知识,但作者明显没有把主要篇幅放在那些已经被反复讲过的概念上,而是一路讲到强化学习 RL、推理 Reason…
推荐一本免费的AI书《Agentic AI 漫游指南》,它深入讲解强化学习、推理、评测等概念,不同于普通入门指南,帮助理解AI工作机制。该书源自arXiv预印本。
一直在通过3批评判器流程运行Qwen3.6-27B。这个流程的重要性远超我的想象。
报告了通过3批评判器编码流程运行Qwen3.6-27B(8位)的情况,发现该流程能有效捕捉错误,使最终输出质量与前沿模型相当,并提出了一种工作流:前沿模型负责规划,Qwen负责执行。
@akshay_pachaar: 现在重要的是框架。模型只是商品。模型本身只返回文本。它产生的任何东西都无法…
本文认为,现在框架(代理框架)比模型本身更关键,并通过Cline的测试展示出推理预算调整带来的性能差异。Cline推出了ClinePass,这是一种订阅服务,可以折扣价在其框架内使用多个开放权重模型。
Token最小化不等于上下文纪律
这篇文章区分了AI使用中的Token最小化和上下文纪律,强调高效的提示词优化并不等同于保持正确的上下文意识。
Tandem Reinforcement Learning with Verifiable Rewards
提出了串联强化学习(Tandem Reinforcement Learning, TRL),将串联训练范式扩展到基于可验证奖励的强化学习(RLVR),以提升推理在较弱模型和人类中的兼容性与可读性。结果表明,TRL在保持单模型性能的同时,增强了交接鲁棒性并减少了分布偏移。