标签
本文评估了针对德国法律法规的检索增强生成中的多种分块策略,发现与结构对齐的方法(如基于章节的检索)优于更复杂的方案。
在乌克兰法律文本上对七个基础模型进行了基准测试,发现分词器通量差异达1.6倍,少样本提示会降低性能,成本效益分析表明NVIDIA Nemotron Super 3优于更大模型。
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。