safety-data-extraction

#safety-data-extraction

大型语言模型用于安全数据提取的基准测试

arXiv cs.CL ↗ · 5天前缓存

本文对四种大型语言模型（Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B）从安全数据表中提取结构化信息的能力进行了基准测试，发现基于文本的提取结合思维链提示可获得最高准确率（Gemini 1.5 Pro 为84%），但没有任何模型超过工业可靠部署所需的90%阈值。

0 人收藏 0 人点赞

safety-data-extraction

大型语言模型用于安全数据提取的基准测试

提交意见反馈