information-extraction

标签

Cards List
#information-extraction

一些好条款:比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现

arXiv cs.CL · 2天前 缓存

本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。

1 人收藏 1 人点赞
#information-extraction

CBRS:基于双语数据集与双层过滤的多平台社交流认知血液请求系统

arXiv cs.CL · 2026-04-21 缓存

孟加拉国工程技术大学的研究人员提出了CBRS,一个多平台框架,采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集,对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率,在减少35倍令牌使用量的同时,优于GPT-4o-mini等其他大语言模型。

0 人收藏 0 人点赞
#information-extraction

用于改进临床试验工作流程准确性和效率的AI辅助协议信息提取

arXiv cs.CL · 2026-04-20 缓存

Banting Health AI的研究人员展示了一个利用生成式大语言模型和检索增强生成(RAG)技术进行临床试验协议信息自动提取的AI系统,准确率达89%,相比独立LLM的62.6%有显著提升,AI辅助工作流程任务完成速度快40%,并降低认知负荷。

0 人收藏 0 人点赞
#information-extraction

DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别

arXiv cs.CL · 2026-04-20 缓存

DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。

0 人收藏 0 人点赞
#information-extraction

PIIBench:个人可识别信息检测的统一多源基准语料库

arXiv cs.CL · 2026-04-20 缓存

PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈