通过误差控制动力学重新思考循环模型中的状态跟踪

Hugging Face Daily Papers 论文

摘要

本文认为,循环模型中鲁棒的状态跟踪取决于误差控制动力学,而不仅仅取决于表达能力,证明了仿射循环网络会遭受累积误差的影响,从而限制了其有效视野。

循环架构中状态跟踪的理论主要关注表达能力:即固定架构是否在理论上能够实现一组符号转换规则。我们认为,同样重要的是误差控制,即支配隐藏状态沿区分符号状态的方向漂移的动力学。我们证明,一旦仿射循环网络(一类包含状态空间模型和线性注意力机制的模型)保持状态表示,就无法纠正沿状态分离子空间的误差。因此,实际的仿射跟踪器并未学习鲁棒的状态跟踪;相反,它们学习的是受累积状态相关误差支配的有限视野解决方案。我们描述了这种失败的机制,表明只有当累积的类内散布相对于初始的类间分离仍然较小时,跟踪才保持可读性。我们在群组状态跟踪任务上的实证研究表明,这种崩溃是可以预测的:当可区分性比率跨越训练后解码器的可读性阈值时,跟踪就会崩溃。在各种训练模型中,这一交叉点预测了下游准确率失效的视野。这些结果表明,鲁棒的状态跟踪不仅由架构的理论表达能力决定,更关键地由其误差控制能力决定。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:18

论文页 - 通过误差控制动力学重新思考循环模型中的状态跟踪

来源: https://huggingface.co/papers/2605.07755

摘要

一旦状态表示被保留,仿射循环网络便无法纠正状态跟踪中的误差,从而导致由累积误差而非鲁棒跟踪所决定的有限视界解决方案。

循环架构 (https://huggingface.co/papers?q=recurrent%20architectures) 中的状态跟踪 (https://huggingface.co/papers?q=state%20tracking) 理论主要集中于表达能力 (https://huggingface.co/papers?q=expressive%20capacity):即固定架构是否能在理论上实现一组符号转换规则。我们认为,同样重要的是误差控制 (https://huggingface.co/papers?q=error%20control),即支配沿区分符号状态方向的隐藏状态漂移 (https://huggingface.co/papers?q=hidden-state%20drift) 的动力学。我们证明,仿射循环网络 (https://huggingface.co/papers?q=affine%20recurrent%20networks)(一类涵盖状态空间模型 (https://huggingface.co/papers?q=State-Space%20Models) 和线性注意力 (https://huggingface.co/papers?q=Linear%20Attention) 的模型)一旦保留状态表示,便无法纠正沿状态分离子空间 (https://huggingface.co/papers?q=state-separating%20subspaces) 的误差。因此,实际应用的仿射跟踪器并未学习到鲁棒的状态跟踪 (https://huggingface.co/papers?q=state%20tracking);相反,它们学习到了由累积的状态相关误差所支配的有限视界解决方案 (https://huggingface.co/papers?q=finite%20horizon%20solutions)。我们表征了这种失效的机制,表明只有当累积的类内散布相对于初始的类间分离仍然较小时,跟踪信息才保持可读取。我们在群组状态跟踪任务上通过实证表明,这种崩溃是可预测的:当可区分性比率 (https://huggingface.co/papers?q=distinguishability%20ratio) 跨越训练解码器的可读性阈值 (https://huggingface.co/papers?q=readability%20threshold) 时,跟踪便会崩溃。在各类训练模型中,这一交叉点预测了下游准确率失效的视界。这些结果确立了一个事实:鲁棒的状态跟踪 (https://huggingface.co/papers?q=state%20tracking) 不仅由架构的理论表达能力决定,更关键地由其误差控制 (https://huggingface.co/papers?q=error%20control) 决定。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07755)查看 PDF (https://arxiv.org/pdf/2605.07755)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.07755)

在你的 Agent 中获取此论文:

hf papers read 2605\.07755

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07755 即可从此页面建立链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07755 即可从此页面建立链接。

引用此论文的 Space 项目0

无 Space 项目链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07755 即可从此页面建立链接。

包含此论文的合集0

无合集包含此论文

将此论文添加至合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

面向切换动态序列的时变深度状态空间模型

arXiv cs.LG

本文提出了一类时变深度状态空间模型,其动态特性通过基函数展开进行学习,从而能够自适应建模切换系统。该方法在合成切换数据和语音去噪任务上均优于时不变模型。