position-encoding

#position-encoding

RoVE: Rotary Value Embeddings Attention for Relative Position-dependent Value Pathways

arXiv cs.LG ↗ · 4d ago Cached

This paper proposes RoVE, a parameter-free modification to Rotary Position Embeddings that makes value pathways position-sensitive by rotating values simultaneously with keys, transforming RoPE attention into attentive convolution. Experiments on GPT-2 models show consistent gains in few-shot in-context learning, out-of-distribution perplexity, and long-context retrieval.

0 favorites 0 likes

#position-encoding

PJ-RoPE: A Fourier-Jet-Affine Position Space for Relative Attention

arXiv cs.LG ↗ · 2026-06-05 Cached

PJ-RoPE unifies RoPE's Fourier phase, Jordan-RoPE's finite jets, and ALiBi's affine recency into a single learnable relative-position space, and studies task-driven selection of sectors.

0 favorites 0 likes

#position-encoding

RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

Hugging Face Daily Papers ↗ · 2026-05-15 Cached

This paper proves that RoPE-based attention fails to distinguish token positions and identity in long contexts, explaining LLM failures within advertised context lengths. Experimental verification shows models optimized for retrieval struggle on simple list tasks.

0 favorites 0 likes

position-encoding

RoVE: Rotary Value Embeddings Attention for Relative Position-dependent Value Pathways

PJ-RoPE: A Fourier-Jet-Affine Position Space for Relative Attention

RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

Submit Feedback