RTI-Bench:面向印度信息权决策分析的结构化数据集
摘要
介绍RTI-Bench,这是一个用于分析印度《信息权法》下决策的结构化数据集,对NLP和法律人工智能研究具有实用价值。
arXiv:2605.16843v1 Announce Type: new
摘要:印度《信息权法案(2005年)》赋予每位公民向公共机构索取信息的权利,但实践中大多数人无法理解中央信息委员会(CIC)决定中使用的密集行政语言,更不用说预测上诉是否值得提起。本文介绍了RTI-Bench,这是一个结构化的CIC决策数据集,包含结果标签、豁免引用、IRAC风格的推理组件和程序时间线。据我们所知,这是首个公开发布的印度RTI行政决策结构化数据集。该数据集来源于两个方面:1,218个案例来自公开的指令-响应语料库(通过基于规则的提取添加了结构化字段),以及直接从委员会门户网站收集的298份CIC决策PDF,涵盖五位专员和2023至2026年间的三代文档格式。指令-响应语料库的标签覆盖率达到89%。对于239份主要决策的PDF子集,首次发布的覆盖率为51%。随机抽取50个带标签案例进行人工审查,标签精确率为95.3%。在100个案例上使用零样本Mistral 7B基线,结果预测准确率为57.3%,宏F1为37.0%,远高于多数类基线宏F1的14.3%。RTI-Bench可在 https://huggingface.co/datasets/joyboseroy/rti-bench 获取。
查看缓存全文
缓存时间: 2026/05/19 06:36
# RTI-Bench:面向印度信息权决策分析的结构化数据集 来源:https://arxiv.org/abs/2605.16843 文献工具 ## 文献与引用工具 文献浏览切换 代码、数据、媒体 ## 本文相关的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于 arXivLabs ## arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。 与 arXivLabs 合作的个人和组织都已接受并认同我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。 有一个能为 arXiv 社区增添价值的项目想法?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。
相似文章
UsefulBench:以决策有用信息为目标的信息检索
UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。
PIIBench:个人可识别信息检测的统一多源基准语料库
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。
EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
IMLJD:用于印度婚姻诉讼分析的计算数据集
本文介绍了IMLJD,一个专门用于分析印度婚姻诉讼的计算数据集,支持自然语言处理和法律分析研究。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。