使用本地语法图为韩语法律聊天机器人生成训练数据集

arXiv cs.CL 2026/05/11 04:00 论文

legal-tech dataset-generation korean-nlp chatbot intent-classification arxiv

摘要

本文提出了一种利用本地语法图（LGG）为韩语法律聊天机器人生成大规模、带标注训练数据集的方法，在使用 DIET 分类器时达到了 91% 的 F1 分数。

arXiv:2605.07432v1 公告类型：新论文摘要：聊天机器人是指能够通过文本或语音信号与人类进行交流的机器人。由于律师提供的法律代理和法律建议成本高昂，往往将处于劣势和弱势群体排除在外，因此法律聊天机器人有助于提高司法获取度。然而，在用于深度学习对话系统（聊天机器人）的数据集中捕捉真实用户输入的多样性是一项技术挑战。多样性需要大量的数据，而且这些数据还必须进行标注以分类用户意图，而数据标注的成本随着数据量的增加而上升。与其对大量来自用户的真实数据进行标注，我们的方法是通过联合生成大量话语和高质量的标签来解决这一问题。标注数据集的生成器基于以本地语法图（LGG）形式呈现的语言资源，这些资源捕捉并概括了语言学家在文本中观察到的词汇和局部语法。LGG 根据特定领域的分类系统将标签与话语关联起来。我们通过实现韩语法律聊天机器人 LIGA 来测试这种方法。该聊天机器人通过提供韩国政府公开的类似法律案例的信息，回答用户关于法律情况的对话式查询。我们借助开源 Unitex 平台从 LGG 生成了带标注的话语。这一过程产生了 7 亿条话语。我们使用由这些话语组成的数据集训练了一个 DIET 分类器，训练后的模型达到了 91% 的 F1 分数性能。我们实现了一个名为 LIGA 的聊天机器人，它利用模型的结果来选择指向记录类似法律案例网页的链接。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:03

# 为韩语法律聊天机器人生成训练数据集
来源: https://arxiv.org/abs/2605.07432
查看 PDF (https://arxiv.org/pdf/2605.07432)

> 摘要:聊天机器人是通过文本或语音信号与人类通信的机器人。由于律师的法律代表和法律咨询成本高昂，将弱势和脆弱人群排除在外，因此法律聊天机器人可以提高获取正义的机会。然而，在深度学习对话系统（聊天机器人）的数据集中捕捉实际用户输入的多样性是一项技术挑战。多样性需要大量数据，这些数据还必须进行标注以分类用户意图，而数据标注的成本随着数据量的增加而增加。与其标注大量来自用户的真实数据，我们的方法是通过联合生成大量话语和高质量标签来实现。标记数据集的生成器基于语言资源的形式为局部语法图（LGG），它捕捉并概括语言学家在文本中观察到的词汇和局部语法。LGG 根据特定领域的分类系统将标签与话语关联。我们通过在韩语中实现法律聊天机器人 LIGA 来测试这种方法。聊天机器人通过提供韩国政府公开提供的类似法律案例的信息，回答用户关于法律情况的对话查询。我们在开源 Unitex 平台的帮助下，从 LGG 生成了已标记的话语。这一过程产生了 7 亿条话语。我们在由这些话语组成的数据集上训练了一个 DIET 分类器，经过训练的模型达到了 91% 的 f1-score 性能。我们实现了一个名为 LIGA 的聊天机器人，它使用模型的结果来选择记录类似法律案例的网页链接。

## 提交历史

来自: Eric Laporte [查看邮件 (https://arxiv.org/show-email/9dabeb0b/2605.07432)] **[v1]** 星期五, 8 五月 2026 08:32:56 UTC (825 KB)

相似文章

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用，该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型（Qwen3、Gemma-3、Llama-3、Aya）在不同词汇配置下的表现，发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

arXiv cs.CL

研究者发布首个公开基准 LegalBench-BR，用于评估大模型在巴西法律文本分类任务上的表现。实验表明，LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。

如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据

Hugging Face Blog

# 如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据来源：[https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas) [返回文章列表](https://huggingface.co/blog) - [韩国专属数据集](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea) - [为何这对自主智能体至关重要](https://

VLegal-Bench: 越南法律推理认知基础基准测试

arXiv cs.CL

VLegal-Bench 是一个认知基础基准测试，用于评估大语言模型在越南法律推理任务中的表现，包含 10,450 个专家标注样本，旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解，为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。

KoALa-Bench：评估大型音频语言模型在韩语语音理解与忠实度上的表现

arXiv cs.CL

KoALa-Bench 推出了一套聚焦韩语的基准测试，从六个维度评估大型音频语言模型，包括全新的语音忠实度指标与韩国本土文化内容。

相似文章

通过令牌剪枝优化韩语中心的大语言模型

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据

VLegal-Bench: 越南法律推理认知基础基准测试

KoALa-Bench：评估大型音频语言模型在韩语语音理解与忠实度上的表现

提交意见反馈