question-generation

#question-generation

Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage

arXiv cs.AI ↗ · yesterday Cached

This paper investigates how TMK-based question generation strategies affect dataset quality for procedural and multi-hop reasoning in AI learning systems, comparing strict TMK generation, transcript-first generation, and TMK-aware generation, and introduces a grounding validation framework.

0 favorites 0 likes

#question-generation

How Fine-Grained Should a RAG Benchmark Be? A Hierarchical Framework for Synthetic Question Generation

arXiv cs.CL ↗ · yesterday Cached

This paper introduces HieraRAG, a hierarchical framework for determining optimal granularity in RAG benchmarks. It generates 5,872 synthetic QA pairs across three dimensions and finds that ideal granularity varies by dimension, offering a portable procedure for practitioners.

0 favorites 0 likes

#question-generation

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

arXiv cs.AI ↗ · 2026-06-02 Cached

This paper presents the FETCH classifier, which uses an ensemble of LLMs to generate follow-up questions for automated legal intake, evaluating question quality and cost trade-offs. It finds that high-cost models like GPT-5 are needed for effective plain-language questions, and proposes a rubric for evaluating such questions.

0 favorites 0 likes

#question-generation

Slide Deck Q&A Quality Assurance App: A Multi-Stage Pipeline for Pedagogical Question Generation

arXiv cs.CL ↗ · 2026-05-27 Cached

This paper introduces slidesqaqa, a Flask-based software system that generates pedagogically useful questions from PDF slide decks. It uses a four-stage LLM pipeline to extract text and images, plan questions across the deck, annotate slides, and reconcile outputs, demonstrating high-fidelity question generation on technical lecture slides.

0 favorites 0 likes

question-generation

Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage

How Fine-Grained Should a RAG Benchmark Be? A Hierarchical Framework for Synthetic Question Generation

On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral

Slide Deck Q&A Quality Assurance App: A Multi-Stage Pipeline for Pedagogical Question Generation

Submit Feedback