clinical-evaluation

标签

Cards List
#clinical-evaluation

MedBench v5:面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

arXiv cs.CL · 5天前 缓存

MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。

0 人收藏 0 人点赞
#clinical-evaluation

衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试

arXiv cs.AI · 2026-05-12 缓存

本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。

0 人收藏 0 人点赞
#clinical-evaluation

Improving health intelligence in ChatGPT

YouTube AI Channels · 2026-06-20 缓存

OpenAI组建了一支由在职医生组成的团队,通过真实临床经验评估和改进ChatGPT在健康领域的回答,旨在提高准确性与沟通方式,最终实现医疗知识的普及化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈