我对规模从2B到35B的模型进行了高难度HTML数据提取的基准测试
摘要
一项基准测试,比较了参数规模从2B到35B的AI模型在从HTML中提取结构化数据这一具有挑战性的任务上的表现和准确性。
暂无内容
相似文章
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
HuggingFace 基准数据集现在支持按模型大小筛选
HuggingFace 基准数据集现在支持按模型大小筛选,从而可以进行类似 'swebenchverified 上 32B 以下最佳模型' 的比较。
我基准测试了AI代理读取原始HTML有多糟糕。差距比我预想的要大。
一项实验比较了AI代理在读取原始HTML与结构化格式时的准确性和代币成本;原始HTML的代币成本是两倍,准确性更低。
大型语言模型用于安全数据提取的基准测试
本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。
为什么缺乏新的100B-120B模型?
分析AI模型尺寸趋势,指出100-120B参数范围存在空白,近期发布主要聚焦于较小(25-35B)或较大(200B+)的模型。