使用本地语法图为韩语法律聊天机器人生成训练数据集
摘要
本文提出了一种利用本地语法图(LGG)为韩语法律聊天机器人生成大规模、带标注训练数据集的方法,在使用 DIET 分类器时达到了 91% 的 F1 分数。
查看缓存全文
缓存时间: 2026/05/11 07:03
# 为韩语法律聊天机器人生成训练数据集 来源: https://arxiv.org/abs/2605.07432 查看 PDF (https://arxiv.org/pdf/2605.07432) > 摘要:聊天机器人是通过文本或语音信号与人类通信的机器人。由于律师的法律代表和法律咨询成本高昂,将弱势和脆弱人群排除在外,因此法律聊天机器人可以提高获取正义的机会。然而,在深度学习对话系统(聊天机器人)的数据集中捕捉实际用户输入的多样性是一项技术挑战。多样性需要大量数据,这些数据还必须进行标注以分类用户意图,而数据标注的成本随着数据量的增加而增加。与其标注大量来自用户的真实数据,我们的方法是通过联合生成大量话语和高质量标签来实现。标记数据集的生成器基于语言资源的形式为局部语法图(LGG),它捕捉并概括语言学家在文本中观察到的词汇和局部语法。LGG 根据特定领域的分类系统将标签与话语关联。我们通过在韩语中实现法律聊天机器人 LIGA 来测试这种方法。聊天机器人通过提供韩国政府公开提供的类似法律案例的信息,回答用户关于法律情况的对话查询。我们在开源 Unitex 平台的帮助下,从 LGG 生成了已标记的话语。这一过程产生了 7 亿条话语。我们在由这些话语组成的数据集上训练了一个 DIET 分类器,经过训练的模型达到了 91% 的 f1-score 性能。我们实现了一个名为 LIGA 的聊天机器人,它使用模型的结果来选择记录类似法律案例的网页链接。 ## 提交历史 来自: Eric Laporte [查看邮件 (https://arxiv.org/show-email/9dabeb0b/2605.07432)] **[v1]** 星期五, 8 五月 2026 08:32:56 UTC (825 KB)
相似文章
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据
# 如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据 来源:[https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas) [返回文章列表](https://huggingface.co/blog) - [韩国专属数据集](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea) - [为何这对自主智能体至关重要](https://
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。