标签
本文介绍了HistoriQA-ThirdRepublic,一个基于法兰西第三共和国历史文献的法语多跳问答数据集,旨在评估检索增强和大型语言模型系统在历史研究场景中的表现。
介绍了LAUKIN,一个包含来自澳大利亚、英国和印度合同的条款对数据集,标注了法律等价性。评估了12个模型,宏平均F1分数达到65.11%,建立了一个具有挑战性的基准。