IMLJD：用于印度婚姻诉讼分析的计算数据集

arXiv cs.CL 2026/05/20 04:00 论文

dataset legal-nlp matrimonial india computational-linguistics litigation-analysis

摘要

本文介绍了IMLJD，一个专门用于分析印度婚姻诉讼的计算数据集，支持自然语言处理和法律分析研究。

arXiv:2605.19346v1 公告类型：新摘要：我们提出了IMLJD，一个包含3,613份印度法院判决的开放数据集，涵盖IPC第498A条、《保护妇女免受家庭暴力法》和CrPC第482条下的婚姻纠纷。数据集涵盖印度最高法院2000年至2024年的案件（1,474例）和卡纳塔克邦高等法院2018年至2024年的案件（2,139例），并包含结构化的结果标签、元数据派生指标和知识图谱。我们发现，在最高法院层面，57.6%的撤销申请获得成功，而在卡纳塔克邦高等法院层面这一比例为39.7%。在2018年至2024年的匹配期间，最高法院的撤销率为59.3%，差距扩大至19.6个百分点，证实了这一发现在时间调整后仍然稳健。数据集、代码和知识图谱已在https://github.com/joyboseroy/imljd和https://huggingface.co/datasets/joyboseroy/imljd上公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:25

# IMLJD：印度婚姻诉讼分析计算数据集
来源：https://arxiv.org/abs/2605.19346
文献工具

## 文献与引用工具

文献浏览器 切换

代码、数据、媒体

## 与此论文相关的代码、数据与媒体

演示

## 演示

相关论文

## 推荐与搜索工具

关于 arXivLabs

## arXivLabs：与社区合作者的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受了我们的价值观：开放、社区、卓越和用户数据隐私。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增添价值的项目想法吗？**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。

相似文章

@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…

X AI KOLs Timeline

由 mlabonne 整理的大语言模型指令与推理数据集列表，包含数据集特征、许可证及用例详情。

LAUKIN：一个跨司法管辖区的普通法合同数据集

arXiv cs.CL

介绍了LAUKIN，一个包含来自澳大利亚、英国和印度合同的条款对数据集，标注了法律等价性。评估了12个模型，宏平均F1分数达到65.11%，建立了一个具有挑战性的基准。

RTI-Bench：面向印度信息权决策分析的结构化数据集

arXiv cs.CL

介绍RTI-Bench，这是一个用于分析印度《信息权法》下决策的结构化数据集，对NLP和法律人工智能研究具有实用价值。

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集来源：[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要大型语言模型（LLM）正日益被广泛用

我们一直在分析人们如何在法律与合规任务中使用LLM（GDPR、AI法案等）。

Reddit r/ArtificialInteligence

对LLM在法律与合规任务中使用的分析显示，模型常常生成自信但无法验证的引用，引发了对AI输出可靠法律依据的质疑。

相似文章

@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…

LAUKIN：一个跨司法管辖区的普通法合同数据集

RTI-Bench：面向印度信息权决策分析的结构化数据集

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

我们一直在分析人们如何在法律与合规任务中使用LLM（GDPR、AI法案等）。

提交意见反馈