使用本地语法图为韩语法律聊天机器人生成训练数据集
摘要
本文提出了一种利用本地语法图(LGG)为韩语法律聊天机器人生成大规模、带标注训练数据集的方法,在使用 DIET 分类器时达到了 91% 的 F1 分数。
查看缓存全文
缓存时间: 2026/05/11 07:03
# 为韩语法律聊天机器人生成训练数据集 来源: https://arxiv.org/abs/2605.07432 查看 PDF (https://arxiv.org/pdf/2605.07432) > 摘要:聊天机器人是通过文本或语音信号与人类通信的机器人。由于律师的法律代表和法律咨询成本高昂,将弱势和脆弱人群排除在外,因此法律聊天机器人可以提高获取正义的机会。然而,在深度学习对话系统(聊天机器人)的数据集中捕捉实际用户输入的多样性是一项技术挑战。多样性需要大量数据,这些数据还必须进行标注以分类用户意图,而数据标注的成本随着数据量的增加而增加。与其标注大量来自用户的真实数据,我们的方法是通过联合生成大量话语和高质量标签来实现。标记数据集的生成器基于语言资源的形式为局部语法图(LGG),它捕捉并概括语言学家在文本中观察到的词汇和局部语法。LGG 根据特定领域的分类系统将标签与话语关联。我们通过在韩语中实现法律聊天机器人 LIGA 来测试这种方法。聊天机器人通过提供韩国政府公开提供的类似法律案例的信息,回答用户关于法律情况的对话查询。我们在开源 Unitex 平台的帮助下,从 LGG 生成了已标记的话语。这一过程产生了 7 亿条话语。我们在由这些话语组成的数据集上训练了一个 DIET 分类器,经过训练的模型达到了 91% 的 f1-score 性能。我们实现了一个名为 LIGA 的聊天机器人,它使用模型的结果来选择记录类似法律案例的网页链接。 ## 提交历史 来自: Eric Laporte [查看邮件 (https://arxiv.org/show-email/9dabeb0b/2605.07432)] **[v1]** 星期五, 8 五月 2026 08:32:56 UTC (825 KB)
相似文章
将韩国文化融入LLM对齐:迈向文化一致性
本文提出一种数据集生成管道,通过DPO微调使大语言模型与韩国文化规范对齐,在提升文化安全性的同时不损害通用性能。
KG2Cypher:用于构建企业级文本到Cypher系统的数据驱动管道
KG2Cypher 提出了一种数据驱动管道,利用现有知识图谱构建企业级文本到Cypher系统。它使用LLM生成自然语言问题-Cypher对,并通过LLM评估器和人工审核进行验证,通过基于LoRA的微调在韩语企业数据集上取得了显著的性能提升。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据
# 如何利用合成人物画像将韩国AI智能体锚定于真实人口统计数据 来源:[https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas) [返回文章列表](https://huggingface.co/blog) - [韩国专属数据集](https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas#a-sovereign-dataset-for-south-korea) - [为何这对自主智能体至关重要](https://