MedSkillAudit:医学研究智能体技能领域专用审计框架
摘要
本文介绍了MedSkillAudit,这是一个领域专用审计框架,用于在部署前评估医学研究智能体技能的安全性和质量。研究表明,该系统在评估一致性方面达到可靠水平,优于或相当于人类专家审查。
查看缓存全文
缓存时间: 2026/05/08 08:13
论文页面 - MedSkillAudit:面向医学研究智能体技能的领域特定审计框架
来源: https://huggingface.co/papers/2604.20441 作者:
,
,
,
,
,
,
,
,
,
,
摘要
一种面向医学研究智能体技能的领域特定审计框架展示了与专家评审相比可靠的评估一致性,支持对医疗应用中专业AI能力的治理。
背景:智能体技能作为模块化、可复用的能力单元在AI智能体系统中日益部署。医学研究智能体技能(https://huggingface.co/papers?q=Medical%20research%20agent%20skills)需要超越通用评估的保障措施,包括科学完整性、方法论有效性、可复现性和边界安全性。本研究开发并初步评估了一个面向医学研究智能体技能的领域特定审计框架(https://huggingface.co/papers?q=medical%20research%20agent%20skills),重点关注与专家评审(https://huggingface.co/papers?q=expert%20review)的可靠性(https://huggingface.co/papers?q=reliability)。方法:我们开发了MedSkillAudit(https://huggingface.co/papers?q=MedSkillAudit)([email protected] (https://huggingface.co/papers?q=skill-auditor%401.0)),这是一个分层框架,用于评估技能发布就绪状态后再进行部署。我们评估了五个医学研究类别中的75项技能(每类15项)。两位专家独立给出了质量分数(https://huggingface.co/papers?q=quality%20score)(0-100)、有序发布意向(https://huggingface.co/papers?q=release%20disposition)(Production Ready / Limited Release / Beta Only / Reject)以及高风险失败标记(https://huggingface.co/papers?q=high-risk%20failure%20flag)。系统与专家的一致性使用ICC(2,1) (https://huggingface.co/papers?q=ICC(2),1) (https://huggingface.co/papers?q=1))和线性加权Cohen’s kappa (https://huggingface.co/papers?q=linearly%20weighted%20Cohen%27s%20kappa)进行量化,以人类评分者间基线为基准。结果:平均共识质量分数(https://huggingface.co/papers?q=consensus%20quality%20score)为72.4(SD = 13.0);57.3%的技能低于Limited Release阈值。MedSkillAudit(https://huggingface.co/papers?q=MedSkillAudit)达到了ICC(2,1) (https://huggingface.co/papers?q=ICC(2),1) (https://huggingface.co/papers?q=1))= 0.449(95% CI: 0.250-0.610),超过了人类评分者间ICC的0.300。系统与共识分数的分歧(SD = 9.5)小于专家间分歧(SD = 12.4),无方向性偏差(Wilcoxon p = 0.613)。Protocol Design (https://huggingface.co/papers?q=Protocol%20Design)展示了最强的类别级一致性(ICC = 0.551)(https://huggingface.co/papers?q=1));Academic Writing (https://huggingface.co/papers?q=Academic%20Writing)展示了负ICC(-0.567),反映了结构性评分标准与专家的不匹配。结论:领域特定的部署前审计可能为治理医学研究智能体技能(https://huggingface.co/papers?q=medical%20research%20agent%20skills)提供实践基础,以针对科学用例定制的结构化审计工作流补充通用质量检查。
查看arXiv页面 (https://arxiv.org/abs/2604.20441) 查看PDF (https://arxiv.org/pdf/2604.20441) GitHub537 (https://github.com/aipoch/medical-research-skills) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.20441)
在您的智能体中获取这篇论文:
hf papers read 2604\.20441
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无链接此论文的模型
在模型README.md中引用arxiv.org/abs/2604.20441以从此页面链接。
引用此论文的数据集0
无链接此论文的数据集
在数据集README.md中引用arxiv.org/abs/2604.20441以从此页面链接。
引用此论文的Spaces0
无链接此论文的Space
在Space README.md中引用arxiv.org/abs/2604.20441以从此页面链接。
包含此论文的收藏集1
相似文章
Skill Inspector
Skill Inspector 是一款开发者工具,可审计 AI 代理技能,帮助防范恶意软件风险。
SkillAudit:基于成对轨迹审计的无真值技能进化
SkillAudit 引入了一个框架,通过成对轨迹审计和对比评估,在没有真实反馈的情况下进化 LLM 智能体技能。该框架在 89 个任务上实现了 73.9% 的平均任务奖励,优于基线方法。
技能增强型AI代理在医学研究分析中的应用:一项NSCLC转录组生物标志物任务中的探索性多模型人类评估
本探索性研究在NSCLC生物标志物任务中使用多模型人类评估,评估将AI代理与医学研究技能包相结合是否能提高转录组研究分析输出的质量(与原生AI相比)。结果显示有方向性但无统计显著性的改善,强调了进行更大规模、更稳健评估的必要性。
OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统
OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。
经验造就技能:通过自我演进的技能记忆实现可泛化的医学智能体推理
本文介绍了SkeMex,一个自我演进的框架,通过将交互轨迹提炼为结构化技能记忆来增强医学智能体,并利用上下文相关的效用估计与治理实现更好的长期临床推理。