面向专业人类与大语言模型协作的能力条件化支架
摘要
介绍了能力条件化支架,一种用于大语言模型协作的框架,根据用户专业领域调整干预措施以防止专业领域漂移,并在MMLU子集上进行了试点评估。
arXiv:2605.15404v1 公告类型:新
摘要:大语言模型个性化通常根据用户偏好和风格调整输出,但未考虑用户在不同专业领域的评估能力差异。这一局限可能助长专业领域漂移,即用户在自己无法可靠评估的领域中依赖AI生成的推理。我们引入了能力条件化支架,一种类型化框架,将专业知识划分为强、混合和弱领域,并根据结构化的能力轮廓调整干预行为。在多个MMLU子集和四个LLM基底上的试点评估显示了一致的能力轮廓条件化干预行为,包括轮廓交换下的类别反转以及混合领域风险区域中的选择性激活。这些发现表明,能力感知支架可以支持比风格个性化更可靠的专业人类与AI协作。
查看缓存全文
缓存时间: 2026/05/18 06:31
# 面向专业人类与LLM协作的能力条件化框架 来源:https://arxiv.org/abs/2605.15404 查看PDF (https://arxiv.org/pdf/2605.15404) > 摘要:大型语言模型的个性化通常根据用户偏好和风格调整输出,但未考虑用户在不同专业领域评估能力的差异。这一局限可能引发“专业领域漂移”(Professional Domain Drift),即用户在自身无法可靠评估的领域中依赖AI生成的推理。我们引入能力条件化框架(Capability Conditioned Scaffolding),这是一种类型化框架,将专业知识划分为强域、混合域和弱域,并根据结构化能力画像调节干预行为。在多个MMLU子集和四个LLM基底上的初步评估显示,能力画像条件化干预行为具有一致性,包括画像互换下的类别反转以及混合域风险区域的选择性激活。这些发现表明,能力感知框架能够在风格化个性化之外,支持更可靠的专业人机协作。 ## 提交历史 来自:Sen Yang [查看电子邮件 (https://arxiv.org/show-email/414fc87a/2605.15404)] **\[v1\]** 2026年5月14日星期四 20:42:03 UTC (559 KB)
相似文章
能力的坐标系:用于大语言模型评估的统一MTMM几何框架
这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
前沿大语言模型中的领域级元认知监控:一份33个模型图谱
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。
学习可转移的潜在用户偏好以实现与人类一致的决策
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。