evaluation-awareness

#evaluation-awareness

LURE: Live-Usage Replay Evaluations for Reducing Evaluation Awareness

arXiv cs.CL ↗ · 2026-05-27 Cached

This paper proposes LURE (Live-Usage Replay Evaluations), a method for constructing realistic, deployment-like evaluations of large language models by replaying real agentic interaction trajectories and appending evaluation prompts, reducing the detectability of evaluations compared to existing benchmarks.

0 favorites 0 likes

#evaluation-awareness

Decomposing and Measuring Evaluation Awareness

arXiv cs.LG ↗ · 2026-05-25 Cached

This paper defines and decomposes evaluation awareness in LLMs into environmental trigger factors and model recognition/propensity components, drawing on demand characteristics literature.

0 favorites 0 likes

#evaluation-awareness