标签
本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。