rotary-positional-embedding

#rotary-positional-embedding

High Dimensional, Dynamic Rotary Positional Embedding [P]

Reddit r/MachineLearning ↗ · 4d ago

Introduces HDD-RoPE, an extension of rotary positional embeddings that uses high-dimensional chunks and data-dependent rotation rates, showing faster convergence on TinyStories compared to xPos.

0 favorites 0 likes

#rotary-positional-embedding

RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

arXiv cs.CL ↗ · 2026-05-18 Cached

This paper provides a theoretical proof that Rotary Positional Embeddings (RoPE) in Transformer-based language models lose their locality bias and ability to distinguish token order in long contexts, with attention scores becoming no better than random. The authors show that increasing the RoPE base trades off position vs. token distinction and that multi-head, multi-layer architectures cannot compensate for this fundamental limitation.

0 favorites 0 likes

rotary-positional-embedding

High Dimensional, Dynamic Rotary Positional Embedding [P]

RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

Submit Feedback