标签
本文指出了无参考忠实性指标中的一个盲点:它们只衡量精确性(即声明是否得到支持),而不衡量召回率(即相关事实的覆盖程度)。作者引入了一种使用Formula 1遥测数据和天气数据的完整Oracle评估,表明高精确度模型往往覆盖不佳,并提出了一个组合指标。