industrial-safety

#industrial-safety

Benchmarking Large Language Models for Safety Data Extraction

arXiv cs.CL ↗ · 5d ago Cached

This paper benchmarks four large language models (Gemini 1.5 Pro, GPT-4o, Claude 3.7 Sonnet, Llama 3.1-70B) for extracting structured information from Safety Data Sheets, finding that text-based extraction with chain-of-thought prompting yields the highest accuracy (84% by Gemini 1.5 Pro) but no model surpasses the 90% threshold required for reliable industrial deployment.

0 favorites 0 likes

industrial-safety

Benchmarking Large Language Models for Safety Data Extraction

Submit Feedback