healthcare-ai

#healthcare-ai

我对8个LLM在医疗记录方面进行了基准测试。幻觉罕见；遗漏需关注。

Reddit r/LocalLLaMA ↗ · 10小时前

对8个LLM在医疗记录中的基准测试发现，幻觉很少，但遗漏需要引起注意。

0 人收藏 0 人点赞

#healthcare-ai

新研究展示了我们的医疗AI——AMIE如何帮助管理健康状况。

Google AI Blog ↗ · 6天前缓存

Google的研究表明，其医疗AI——AMIE能够长期有效管理健康状况，在推理能力上与临床医生相当，在计划的精确性和与指南的一致性方面更胜一筹，据发表在Nature上的一项研究所示。

0 人收藏 0 人点赞

#healthcare-ai

Slop Paradox: 合成标准化如何侵蚀AI重写放射学报告中的临床不确定性和跨模态对齐

arXiv cs.CL ↗ · 6天前缓存

本文测量了AI重写放射学报告中的信息退化，发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失，这一现象被称为'slop paradox'。

0 人收藏 0 人点赞

#healthcare-ai

机器学习合并症指数

arXiv cs.AI ↗ · 6天前缓存

本文提出了一种机器学习合并症指数（MLCI），该方法利用诊断代码和非线性学习来改善多种临床结果的风险调整，优于传统的以死亡率为中心的指数。

0 人收藏 0 人点赞

#healthcare-ai

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

arXiv cs.AI ↗ · 6天前缓存

本文提出了一种在线自适应的临床决策支持AI系统，该系统整合了治疗效果估计、数字孪生模拟和强化学习，以在安全、临床医生监督的方式下推荐治疗方案，并在合成模拟器和TCGA卵巢癌数据集上进行了验证。

0 人收藏 0 人点赞

#healthcare-ai

EHRNote-ChatQA：基于证据的长篇出院小结多轮临床问答基准

arXiv cs.CL ↗ · 2026-06-16 缓存

介绍 EHRNote-ChatQA，这是一个基于证据、覆盖多份出院小结的多轮临床问答基准，经专家验证构建。对 22 个大语言模型的基准测试揭示了在证据溯源和多轮错误累积方面的挑战。

0 人收藏 0 人点赞

#healthcare-ai

融合并非放之四海而皆准：面向时间-事件建模的跨模态表示对齐

arXiv cs.AI ↗ · 2026-06-16 缓存

介绍了一种基于基础模型的框架，用于CT影像与纵向EHR数据之间的跨模态表示对齐，以实现时间-事件预测，并在肺栓塞和心血管疾病队列上评估了融合策略。

0 人收藏 0 人点赞

#healthcare-ai

信任但验证：通过事后对抗性审计和多智能体反馈循环减轻医疗幻觉

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了一种多智能体‘信任但验证’系统，旨在减少大语言模型中的医疗幻觉。该系统在关于违禁药物的临床问题上测试了三种开放获取模型，实现了53%的幻觉错误率降低。

0 人收藏 0 人点赞

#healthcare-ai

Mental-R1：对齐LLM推理用于心理健康评估

arXiv cs.AI ↗ · 2026-06-12 缓存

提出认知相对策略优化（CRPO），一种用于对齐大语言模型在心理健康评估中推理的强化学习框架，在加权F1分数上比现有基线平均提高10.4个百分点。

0 人收藏 0 人点赞

#healthcare-ai

医疗AI并非真正的问题

Reddit r/AI_Agents ↗ · 2026-06-11

文章认为，医疗AI项目常常失败并非因为技术不够好，而是由于工作流程碎片化，没有任何一个实体拥有端到端的流程所有权，导致持续脱节，最终又回归到人工操作。

0 人收藏 0 人点赞

#healthcare-ai

基于主动推理的个性化癌症治疗信念空间控制

arXiv cs.AI ↗ · 2026-06-10 缓存

本文将癌症治疗建模为使用主动推理的信念空间规划问题，推导出一个预期自由能目标，该目标在测量预算约束下统一了目标导向控制与信息获取。该框架在AACR Project GENIE的真实临床数据上得到验证，展示了同时进行患者分类与高治疗疗效的能力。

0 人收藏 0 人点赞

#healthcare-ai

InfoShield：基于信息论优化的隐私保护语音表示用于心理健康筛查

arXiv cs.CL ↗ · 2026-06-05 缓存

InfoShield 提出了一种基于信息论优化的隐私保护语音表示方法，用于心理健康筛查，在减少敏感属性推断的同时保持诊断准确性。一种新颖的 TimeAwareMINE 估计器解决了时序语音中的时静态错位问题。

0 人收藏 0 人点赞

#healthcare-ai

我还能再服一剂吗？评估大语言模型在非处方药剂量问答中面对时间不确定性的决策能力

arXiv cs.CL ↗ · 2026-06-04 缓存

研究人员推出了 DoseBench——一个包含 81 个非处方药剂量场景的基准测试，用于评估大语言模型在对乙酰氨基酚和布洛芬使用中面对时间不确定性时的决策能力。结果表明，大语言模型在滚动时间窗口推理方面频繁出现困难，且可能给出看似自信但缺乏医学依据的回答。

0 人收藏 0 人点赞

#healthcare-ai

MedCUA-Bench：面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI ↗ · 2026-06-03 缓存

MedCUA-Bench是一个新的基准测试，用于评估计算机操作智能体在临床软件任务上的表现，涵盖10个医学领域的18个场景，并包含安全维度。结果显示，当前智能体表现不佳，尤其在真实OpenEMR上，凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞

#healthcare-ai

ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理

arXiv cs.AI ↗ · 2026-06-03 缓存

ChatHealthAI 是一个多模态推理框架，它将结构化 EHR 表示与冻结的 LLM 对齐，从而在保持预测性能的同时实现基于临床的推理。

0 人收藏 0 人点赞

#healthcare-ai

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers ↗ · 2026-06-03

研究人员提出了MedSP1000，这是一个包含1638个病例的交互式基准，源自标准化患者场景，用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示，即使是最佳模型（GPT-5.5）也仅完成了60.4%的专家评分项，表明当前的大语言模型在临床实践中尚不够可靠。

0 人收藏 0 人点赞

#healthcare-ai

面向阿尔茨海默病患者的药物感知金融剥削检测——基于边缘感知交互风险建模

arXiv cs.AI ↗ · 2026-06-02 缓存

本文提出了一种药物感知框架，将用药依从性数据与交易监控相结合，以检测阿尔茨海默病患者的认知风险金融事件，并在药物诱导的脆弱窗口期内显示召回率提升。

0 人收藏 0 人点赞

#healthcare-ai

同一位患者，不同的表述，不同的诊断？评估临床大语言模型的语义稳定性

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种基于自然语言推理（NLI）的语义验证框架，用于评估临床大语言模型对保留语义的提示变化的敏感性，并引入了MVS、ΔC和WCI等度量指标。结果表明，领域专业化并不能持续提高鲁棒性，领域专用模型和通用模型的表现均参差不齐。

0 人收藏 0 人点赞

#healthcare-ai

EPPC-OASIS：针对安全消息中电子患者-提供者通信挖掘的本体感知适应与结构化推理优化

arXiv cs.AI ↗ · 2026-05-26 缓存

本文介绍了EPPC-OASIS，一种本体感知适应方法，用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤，在一个去标识化语料库上相比基线取得了适度改进。

0 人收藏 0 人点赞

#healthcare-ai

基于上下文Bandit偏好学习的人机协同多智能体呼吸机决策支持

arXiv cs.AI ↗ · 2026-05-25 缓存

本文提出了VDSS，一种用于呼吸机决策支持的人机协同多智能体框架，它利用上下文Bandit偏好学习来适应特定临床医生的调校风格。回顾性ICU轨迹重放表明，推荐的可接受性提高，交互轮次减少。

0 人收藏 0 人点赞

healthcare-ai

提交意见反馈