reading-comprehension

#reading-comprehension

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

arXiv cs.CL ↗ · 5d ago Cached

This paper evaluates 42 large language models on their ability to measure item discrimination in reading comprehension assessments, finding weak alignment with human-calibrated measures and highlighting it as an open challenge for psychometric evaluation.

0 favorites 0 likes

#reading-comprehension

A Multi-Agent Framework for Feature-Constrained Difficulty Control in Reading Comprehension Item Generation

arXiv cs.CL ↗ · 2026-05-20 Cached

This paper introduces MAFIG, a multi-agent framework that leverages LLM agents and feature-specific evaluators to generate reading comprehension items with controlled difficulty by adhering to specified feature constraints. Experiments show MAFIG achieves significantly higher constraint satisfaction and robust difficulty control compared to baseline methods.

0 favorites 0 likes

#reading-comprehension

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

arXiv cs.CL ↗ · 2026-05-19 Cached

The paper proposes fine-tuning transformer encoders end-to-end for response-free item difficulty modelling of multiple-choice reading comprehension items, with component-wise and multi-task variants, showing that multi-task learning improves in small-sample regimes.

0 favorites 0 likes

reading-comprehension

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

A Multi-Agent Framework for Feature-Constrained Difficulty Control in Reading Comprehension Item Generation

Response-free item difficulty modelling for multiple-choice items with fine-tuned transformers: Component-wise representation and multi-task learning

Submit Feedback