nlp-benchmark

#nlp-benchmark

HistoriQA-ThirdRepublic：面向历史研究的多跳问答语料库——基于法兰西第三共和国（1870-1940）议会辩论

arXiv cs.AI ↗ · 3天前缓存

本文介绍了HistoriQA-ThirdRepublic，一个基于法兰西第三共和国历史文献的法语多跳问答数据集，旨在评估检索增强和大型语言模型系统在历史研究场景中的表现。

0 人收藏 0 人点赞

#nlp-benchmark

arXiv cs.CL ↗ · 2026-06-12 缓存

介绍了LAUKIN，一个包含来自澳大利亚、英国和印度合同的条款对数据集，标注了法律等价性。评估了12个模型，宏平均F1分数达到65.11%，建立了一个具有挑战性的基准。

0 人收藏 0 人点赞