标签
本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。
孟加拉国工程技术大学的研究人员提出了CBRS,一个多平台框架,采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集,对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率,在减少35倍令牌使用量的同时,优于GPT-4o-mini等其他大语言模型。
Banting Health AI的研究人员展示了一个利用生成式大语言模型和检索增强生成(RAG)技术进行临床试验协议信息自动提取的AI系统,准确率达89%,相比独立LLM的62.6%有显著提升,AI辅助工作流程任务完成速度快40%,并降低认知负荷。
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。