context-optimization

#context-optimization

@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

X AI KOLs Following ↗ · 15小时前

快速-慢速训练（FST）将上下文优化（通过GEPA）与通过强化学习进行的模型权重更新交替进行，在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率，同时保持了可塑性并实现了持续学习。

0 人收藏 0 人点赞

#context-optimization

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了一种上下文优化方法，该方法通过维基百科搜索和浏览器工具进行主动信息搜索，并结合基于搜索的训练流程，在无需更新模型权重的情况下，在多个领域实现了稳健的性能提升。

0 人收藏 0 人点赞