MedSkillAudit:医学研究智能体技能领域专用审计框架

Hugging Face Daily Papers 论文

摘要

本文介绍了MedSkillAudit,这是一个领域专用审计框架,用于在部署前评估医学研究智能体技能的安全性和质量。研究表明,该系统在评估一致性方面达到可靠水平,优于或相当于人类专家审查。

背景:智能体技能作为模块化、可重用的能力单元,在AI智能体系统中正得到越来越广泛的应用。医学研究智能体技能需要超越通用评估的保障措施,包括科学诚信、方法论有效性、可复现性和边界安全。本研究开发和初步评估了医学研究智能体技能领域专用审计框架,重点关注与专家审查的可靠性对比。方法:我们开发了MedSkillAudit([email protected]),这是一个分层框架,用于评估技能在部署前的发布就绪状态。我们评估了五个医学研究类别共75项技能(每类15项)。两位专家独立进行质量评分(0-100)、发布等级判定(生产就绪/限制发布/仅限Beta测试/拒绝)以及高风险失败标记。系统与专家的一致性采用ICC(2,1)和线性加权Cohen's kappa进行量化,并以人工评估者间基线为基准。结果:平均共识质量评分为72.4(SD = 13.0);57.3%的技能低于限制发布阈值。MedSkillAudit的ICC(2,1)达到0.449(95% CI: 0.250-0.610),超过人工评估者间ICC的0.300。系统-共识评分差异(SD = 9.5)小于专家间差异(SD = 12.4),且无方向性偏差(Wilcoxon检验 p = 0.613)。方案设计类别表现出最强的类别级一致性(ICC = 0.551);学术写作类别呈现负ICC(-0.567),反映了评分标准与专家之间的结构性不匹配。结论:领域专用部署前审计可为医学研究智能体技能管理提供实践基础,通过针对科学用例定制的结构化审计工作流程,补充通用质量检查。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:13

论文页面 - MedSkillAudit:面向医学研究智能体技能的领域特定审计框架

来源: https://huggingface.co/papers/2604.20441 作者:

,

,

,

,

,

,

,

,

,

,

摘要

一种面向医学研究智能体技能的领域特定审计框架展示了与专家评审相比可靠的评估一致性,支持对医疗应用中专业AI能力的治理。

背景:智能体技能作为模块化、可复用的能力单元在AI智能体系统中日益部署。医学研究智能体技能(https://huggingface.co/papers?q=Medical%20research%20agent%20skills)需要超越通用评估的保障措施,包括科学完整性、方法论有效性、可复现性和边界安全性。本研究开发并初步评估了一个面向医学研究智能体技能的领域特定审计框架(https://huggingface.co/papers?q=medical%20research%20agent%20skills),重点关注与专家评审(https://huggingface.co/papers?q=expert%20review)的可靠性(https://huggingface.co/papers?q=reliability)。方法:我们开发了MedSkillAudit(https://huggingface.co/papers?q=MedSkillAudit)([email protected] (https://huggingface.co/papers?q=skill-auditor%401.0)),这是一个分层框架,用于评估技能发布就绪状态后再进行部署。我们评估了五个医学研究类别中的75项技能(每类15项)。两位专家独立给出了质量分数(https://huggingface.co/papers?q=quality%20score)(0-100)、有序发布意向(https://huggingface.co/papers?q=release%20disposition)(Production Ready / Limited Release / Beta Only / Reject)以及高风险失败标记(https://huggingface.co/papers?q=high-risk%20failure%20flag)。系统与专家的一致性使用ICC(2,1) (https://huggingface.co/papers?q=ICC(2),1) (https://huggingface.co/papers?q=1))和线性加权Cohen’s kappa (https://huggingface.co/papers?q=linearly%20weighted%20Cohen%27s%20kappa)进行量化,以人类评分者间基线为基准。结果:平均共识质量分数(https://huggingface.co/papers?q=consensus%20quality%20score)为72.4(SD = 13.0);57.3%的技能低于Limited Release阈值。MedSkillAudit(https://huggingface.co/papers?q=MedSkillAudit)达到了ICC(2,1) (https://huggingface.co/papers?q=ICC(2),1) (https://huggingface.co/papers?q=1))= 0.449(95% CI: 0.250-0.610),超过了人类评分者间ICC的0.300。系统与共识分数的分歧(SD = 9.5)小于专家间分歧(SD = 12.4),无方向性偏差(Wilcoxon p = 0.613)。Protocol Design (https://huggingface.co/papers?q=Protocol%20Design)展示了最强的类别级一致性(ICC = 0.551)(https://huggingface.co/papers?q=1));Academic Writing (https://huggingface.co/papers?q=Academic%20Writing)展示了负ICC(-0.567),反映了结构性评分标准与专家的不匹配。结论:领域特定的部署前审计可能为治理医学研究智能体技能(https://huggingface.co/papers?q=medical%20research%20agent%20skills)提供实践基础,以针对科学用例定制的结构化审计工作流补充通用质量检查。

查看arXiv页面 (https://arxiv.org/abs/2604.20441) 查看PDF (https://arxiv.org/pdf/2604.20441) GitHub537 (https://github.com/aipoch/medical-research-skills) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.20441)

在您的智能体中获取这篇论文:

hf papers read 2604\.20441

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无链接此论文的模型

在模型README.md中引用arxiv.org/abs/2604.20441以从此页面链接。

引用此论文的数据集0

无链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2604.20441以从此页面链接。

引用此论文的Spaces0

无链接此论文的Space

在Space README.md中引用arxiv.org/abs/2604.20441以从此页面链接。

包含此论文的收藏集1

相似文章

Skill Inspector

Product Hunt

Skill Inspector 是一款开发者工具,可审计 AI 代理技能,帮助防范恶意软件风险。

OpenSkillEval:自动审计面向LLM智能体的开放技能生态系统

arXiv cs.CL

OpenSkillEval是一个自动评估框架,用于审计LLM智能体在多个下游任务中使用的开源技能。通过使用超过600个动态生成的任务和30项技能,作者发现技能的可用性并不保证有效使用,其收益在很大程度上取决于模型和框架。