标签
BCL是首个采用带有贝叶斯更新的粒子滤波来系统优化信息抽取任务中标签表示的框架,相较于现有方法展现出持续一致的改进。
ACIE是一款用于临床信息提取的智能体RAG系统,在核医学医师对7,326个实例的判断中达到96.5%的接受率,解决了异质性患者背景和缺失元数据的挑战。
AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。
本文介绍了一种完全本地化的两阶段 LLM 流水线,使用 MedGemma-27B 从临床笔记中填充病例报告表,在英文测试轨道上实现了 0.55 的宏观 F1 分数,并在本地开源提交中获得了第二名。
本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。
本文是一项面向部署的研究,比较了24种模型变体(参数规模从270M到8B)在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现,像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数,仅比8B基线低0.35个百分点,同时显著降低了延迟和成本。
本文评估了开源权重的大语言模型LLaMA 3.1在从荷兰语脑部MRI报告中自动提取结构化数据方面的表现。该模型在视觉评分方面取得了高性能,并准确检测了发现结果,而少样本提示改进了对数值变量的提取。
SMADE-IE 是一个面向零样本信息抽取的稀疏多智能体框架,通过自适应模式选择器与基于 Toulmin 论证风格和贝叶斯更新的证据驱动辩论机制,在 NER、RE 和 JERE 任务的 9 个基准测试上超越现有基线,同时提升了 token 使用效率。
本文介绍了EURO-5K,一个用于从欧盟立法中提取报告义务的句子级数据集,并在全微调和参数高效QLoRA下对判别式和生成式Transformer模型进行了基准测试。结果表明,法律预训练主要惠及适应能力有限的模型,且所有方法在大约3000个样本时趋于收敛。
本文介绍了EPPC-OASIS,一种本体感知适应方法,用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤,在一个去标识化语料库上相比基线取得了适度改进。
本文提出一种基于大语言模型的框架,从10-K文件中提取分部披露信息,通过检索增强系统提升纵向与跨公司分析的完整性和可比性。
解释了如何通过使用Pydantic模式定义本体来修复代理记忆,实现结构化提取到知识图谱中以进行多跳推理,并提供了一个开源解决方案(Zep)。
开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。
本文提出了一种比较局部语法共现结果的方法,旨在优化葡萄牙语人名命名实体识别,并在 HAREM 数据集上取得了更高的 F-measure 分数。
本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。
孟加拉国工程技术大学的研究人员提出了CBRS,一个多平台框架,采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集,对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率,在减少35倍令牌使用量的同时,优于GPT-4o-mini等其他大语言模型。
Banting Health AI的研究人员展示了一个利用生成式大语言模型和检索增强生成(RAG)技术进行临床试验协议信息自动提取的AI系统,准确率达89%,相比独立LLM的62.6%有显著提升,AI辅助工作流程任务完成速度快40%,并降低认知负荷。
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。