标签
本文介绍了DiagFlowBench,这是一个包含1,676个多轮诊断对话的基准数据集,这些对话源自工业流程图,旨在评估语言模型处理非程序输入及避免给出不恰当建议的能力。
本文介绍了 DiagnosticIQ,一个用于评估大语言模型将工业符号维护规则转化为可执行步骤能力的基准测试。研究指出,虽然前沿模型在标准任务上表现良好,但在结构扰动下会表现出脆弱性和模式匹配行为。