经验造就技能:通过自我演进的技能记忆实现可泛化的医学智能体推理
摘要
本文介绍了SkeMex,一个自我演进的框架,通过将交互轨迹提炼为结构化技能记忆来增强医学智能体,并利用上下文相关的效用估计与治理实现更好的长期临床推理。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页面 - 经验造就熟练:通过自进化技能记忆实现可泛化的医疗智能体推理
来源:https://huggingface.co/papers/2606.09365 发布于 6月8日
·
由 https://huggingface.co/manglu3935 提交
Manglu (https://huggingface.co/manglu3935) 于 6月9日
作者:
,
,
,
,
,
,
,
,
,
摘要
SkeMex 是一个自进化框架,通过结构化的技能记忆增强医疗智能体,基于上下文效用区分有用经验并管理记忆保留,从而改善长期临床推理能力。
医疗智能体系统 (https://huggingface.co/papers?q=Medical%20agent%20systems) 日益被期望支持交互式临床决策 (https://huggingface.co/papers?q=interactive%20clinical%20decision%20making),而不仅仅是静态的问答。在此类场景中,有效的智能体必须能够跨不断演变的案例复用先前经验,然而现有的记忆机制 (https://huggingface.co/papers?q=memory%20mechanisms) 往往保留原始历史轨迹,这些轨迹冗余、嘈杂且难以管理。更重要的是,它们很少区分哪些记忆对未来推理真正有用。这限制了它们为长周期临床推理积累紧凑且可靠经验的能力。为弥补这一差距,我们提出 SkeMex,一个部署后自进化 (https://huggingface.co/papers?q=post-deployment%20self-evolution) 框架,通过基于技能的记忆 (https://huggingface.co/papers?q=skill-based%20memory) 改进医疗智能体,且无需更新模型权重。SkeMex 将信息丰富的交互轨迹 (https://huggingface.co/papers?q=interaction%20trajectories) 提炼为结构化的技能,编码可复用的程序性知识 (https://huggingface.co/papers?q=procedural%20knowledge),并将其组织成一个多分支仓库 (https://huggingface.co/papers?q=multi-branch%20repository),涵盖通用、任务特定和动作层面的经验。为了确定哪些记忆应被复用和保留,SkeMex 从环境反馈中估计上下文依赖效用 (https://huggingface.co/papers?q=context-dependent%20utility),并以此指导价值感知检索 (https://huggingface.co/papers?q=value-aware%20retrieval) 和仓库治理 (https://huggingface.co/papers?q=repository%20governance)。一个闭环的“读取-写入-评估-治理 (https://huggingface.co/papers?q=Read–Write–Assess–Govern)”生命周期进一步支持持续进化 (https://huggingface.co/papers?q=continual%20evolution),通过写入新技能、更新效用、提升有用记忆并移除有害条目。在多种临床任务上的实验表明,SkeMex 在离线与在线设置 (https://huggingface.co/papers?q=offline%20and%20online%20settings) 下均持续优于代表性的基于记忆的智能体。它还能跨模型骨干进行泛化,并支持可迁移的技能记忆 (https://huggingface.co/papers?q=transferable%20skill%20memory)。所有数据和代码将公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09365) 查看 PDF (https://arxiv.org/pdf/2606.09365) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09365)
在您的智能体中获取此论文:
hf papers read 2606\.09365
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.09365 以将其链接到此页面。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09365 以将其链接到此页面。
引用此论文的 Space 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09365 以将其链接到此页面。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。
相似文章
MedSkillAudit:医学研究智能体技能领域专用审计框架
本文介绍了MedSkillAudit,这是一个领域专用审计框架,用于在部署前评估医学研究智能体技能的安全性和质量。研究表明,该系统在评估一致性方面达到可靠水平,优于或相当于人类专家审查。
SEMA-RAG:一种用于医学推理的自进化多智能体检索增强生成框架
SEMA-RAG是一种自进化多智能体RAG框架,用于医学问答,它将解读、探索和裁决解耦为三个专业智能体,在多个基准测试中相较于基线取得了显著的准确率提升。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
长期历史感知的医疗对话合成与评估
本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。