我对规模从2B到35B的模型进行了高难度HTML数据提取的基准测试

Reddit r/LocalLLaMA 论文

摘要

一项基准测试,比较了参数规模从2B到35B的AI模型在从HTML中提取结构化数据这一具有挑战性的任务上的表现和准确性。

暂无内容
查看原文

相似文章

大型语言模型用于安全数据提取的基准测试

arXiv cs.CL

本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。

为什么缺乏新的100B-120B模型?

Reddit r/LocalLLaMA

分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。