标签
STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节,解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题,在AIME基准上实现了4%-8%的准确率提升。
介绍轨迹外推误差,这是一种从变换器语言模型隐藏状态导出的度量,它独立于惊讶度且与其正交地预测人类阅读时间,揭示了增量处理成本中一个可分离的成分。
本文测试了解析多重性不匹配假说,该假说认为语言模型之所以低估了人类在花园路径句中的处理困难,是因为它们能同时考虑更多的句法解析。通过使用带束搜索的循环神经网络语法(RNNGs),研究者发现减少活跃解析的数量会增大预测的花园路径效应,但远远不足以完全捕捉人类数据。