context-optimization

标签

Cards List
#context-optimization

@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…

X AI KOLs Following · 15小时前

快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。

0 人收藏 0 人点赞
#context-optimization

基于主动信息搜索的上下文训练

Hugging Face Daily Papers · 昨天 缓存

本文介绍了一种上下文优化方法,该方法通过维基百科搜索和浏览器工具进行主动信息搜索,并结合基于搜索的训练流程,在无需更新模型权重的情况下,在多个领域实现了稳健的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈