information-extraction

#information-extraction

BCL：面向信息抽取的贝叶斯上下文学习框架

arXiv cs.CL ↗ · 6天前缓存

BCL是首个采用带有贝叶斯更新的粒子滤波来系统优化信息抽取任务中标签表示的框架，相较于现有方法展现出持续一致的改进。

0 人收藏 0 人点赞

#information-extraction

可配置临床信息提取与Agentic RAG：有效、失效及原因分析

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

ACIE是一款用于临床信息提取的智能体RAG系统，在核医学医师对7,326个实例的判断中达到96.5%的接受率，解决了异质性患者背景和缺失元数据的挑战。

0 人收藏 0 人点赞

#information-extraction

AAbAAC：自身免疫信息提取的标注语料库

arXiv cs.AI ↗ · 2026-06-12 缓存

AAbAAC是一个手动标注的语料库，包含115篇PubMed摘要，用于自身免疫信息提取，重点关注自身免疫疾病和自身抗体等实体。研究表明，在该语料库上进行微调后，命名实体识别（NER）性能有所提升。

0 人收藏 0 人点赞

#information-extraction

sebis 在 CRF 填充 2026：一种用于医疗 CRF 填充的两阶段本地 LLM 流水线

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了一种完全本地化的两阶段 LLM 流水线，使用 MedGemma-27B 从临床笔记中填充病例报告表，在英文测试轨道上实现了 0.55 的宏观 F1 分数，并在本地开源提交中获得了第二名。

0 人收藏 0 人点赞

#information-extraction

大型语言模型用于安全数据提取的基准测试

arXiv cs.CL ↗ · 2026-06-11 缓存

本文对四种大型语言模型（Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B）从安全数据表中提取结构化信息的能力进行了基准测试，发现基于文本的提取结合思维链提示可获得最高准确率（Gemini 1.5 Pro 为84%），但没有任何模型超过工业可靠部署所需的90%阈值。

0 人收藏 0 人点赞

#information-extraction

可以多小？LoRA微调270M-8B模型用于金融交易中的商户信息提取

arXiv cs.AI ↗ · 2026-06-09 缓存

本文是一项面向部署的研究，比较了24种模型变体（参数规模从270M到8B）在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现，像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数，仅比8B基线低0.35个百分点，同时显著降低了延迟和成本。

0 人收藏 0 人点赞

#information-extraction

使用开源权重的大型语言模型从脑部MRI报告中自动提取结构化信息

arXiv cs.AI ↗ · 2026-06-09 缓存

本文评估了开源权重的大语言模型LLaMA 3.1在从荷兰语脑部MRI报告中自动提取结构化数据方面的表现。该模型在视觉评分方面取得了高性能，并准确检测了发现结果，而少样本提示改进了对数值变量的提取。

0 人收藏 0 人点赞

#information-extraction

SMADE-IE：用于零样本信息抽取的稀疏多智能体证据驱动辩论框架

arXiv cs.CL ↗ · 2026-06-04 缓存

SMADE-IE 是一个面向零样本信息抽取的稀疏多智能体框架，通过自适应模式选择器与基于 Toulmin 论证风格和贝叶斯更新的证据驱动辩论机制，在 NER、RE 和 JERE 任务的 9 个基准测试上超越现有基线，同时提升了 token 使用效率。

0 人收藏 0 人点赞

#information-extraction

EURO-5K：领域预训练何时重要？面向欧盟报告义务抽取的Transformer基准测试

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了EURO-5K，一个用于从欧盟立法中提取报告义务的句子级数据集，并在全微调和参数高效QLoRA下对判别式和生成式Transformer模型进行了基准测试。结果表明，法律预训练主要惠及适应能力有限的模型，且所有方法在大约3000个样本时趋于收敛。

0 人收藏 0 人点赞

#information-extraction

EPPC-OASIS：针对安全消息中电子患者-提供者通信挖掘的本体感知适应与结构化推理优化

arXiv cs.AI ↗ · 2026-05-26 缓存

本文介绍了EPPC-OASIS，一种本体感知适应方法，用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤，在一个去标识化语料库上相比基线取得了适度改进。

0 人收藏 0 人点赞

#information-extraction

提升分部披露的完整性与可比性：一种大语言模型方法

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出一种基于大语言模型的框架，从10-K文件中提取分部披露信息，通过检索增强系统提升纵向与跨公司分析的完整性和可比性。

0 人收藏 0 人点赞

#information-extraction

@akshay_pachaar: https://x.com/akshay_pachaar/status/2058976178908885210

X AI KOLs Following ↗ · 2026-05-25 缓存

解释了如何通过使用Pydantic模式定义本体来修复代理记忆，实现结构化提取到知识图谱中以进行多跳推理，并提供了一个开源解决方案（Zep）。

0 人收藏 0 人点赞

#information-extraction

@HappyyPablo: 开源 Marlin-2B，一个小型视觉语言模型，用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline ↗ · 2026-05-19 缓存

开源 Marlin-2B，一个用于从视频中提取结构化信息的小型VLM，经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型，与 Gemini-2.5-flash 竞争。

1 人收藏 1 人点赞

#information-extraction

利用共现比较组装局部语法

arXiv cs.CL ↗ · 2026-05-13 缓存

本文提出了一种比较局部语法共现结果的方法，旨在优化葡萄牙语人名命名实体识别，并在 HAREM 数据集上取得了更高的 F-measure 分数。

0 人收藏 0 人点赞

#information-extraction

一些好条款：比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现

arXiv cs.CL ↗ · 2026-05-08 缓存

本文比较了领域训练的小型语言模型（Olava Extract）与前沿LLMs在结构化合同提取中的表现，结果显示该专业化模型获得了更高的F1分数且成本显著降低。

1 人收藏 1 人点赞

#information-extraction

CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

arXiv cs.CL ↗ · 2026-04-21 缓存

孟加拉国工程技术大学的研究人员提出了CBRS，一个多平台框架，采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集，对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率，在减少35倍令牌使用量的同时，优于GPT-4o-mini等其他大语言模型。

0 人收藏 0 人点赞

#information-extraction

用于改进临床试验工作流程准确性和效率的AI辅助协议信息提取

arXiv cs.CL ↗ · 2026-04-20 缓存

Banting Health AI的研究人员展示了一个利用生成式大语言模型和检索增强生成(RAG)技术进行临床试验协议信息自动提取的AI系统,准确率达89%,相比独立LLM的62.6%有显著提升,AI辅助工作流程任务完成速度快40%,并降低认知负荷。

0 人收藏 0 人点赞

#information-extraction

DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别

arXiv cs.CL ↗ · 2026-04-20 缓存

DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架，在18个基准测试中的14个上取得了最先进的结果，并显著缩小了零样本与监督系统之间的性能差距。

0 人收藏 0 人点赞

#information-extraction

PIIBench：个人可识别信息检测的统一多源基准语料库

arXiv cs.CL ↗ · 2026-04-20 缓存

PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求，这对隐私保护的自然语言处理应用至关重要。

0 人收藏 0 人点赞

information-extraction

提交意见反馈