surprisal

#surprisal

STARE：惊奇度引导的令牌级优势重加权实现策略熵稳定性

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节，解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题，在AIME基准上实现了4%-8%的准确率提升。

0 人收藏 0 人点赞

#surprisal

arXiv cs.CL ↗ · 2026-06-05 缓存

介绍轨迹外推误差，这是一种从变换器语言模型隐藏状态导出的度量，它独立于惊讶度且与其正交地预测人类阅读时间，揭示了增量处理成本中一个可分离的成分。

0 人收藏 0 人点赞

#surprisal

arXiv cs.CL ↗ · 2026-05-18 缓存

本文测试了解析多重性不匹配假说，该假说认为语言模型之所以低估了人类在花园路径句中的处理困难，是因为它们能同时考虑更多的句法解析。通过使用带束搜索的循环神经网络语法（RNNGs），研究者发现减少活跃解析的数量会增大预测的花园路径效应，但远远不足以完全捕捉人类数据。

0 人收藏 0 人点赞