标签
本文介绍了一个时间序列预测框架,该框架利用重要性感知的新闻压缩和过程奖励模型引导的检索,在固定上下文长度内融入长新闻文章,从而提高金融、能源、交通和比特币基准上的预测精度。
本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。
BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。