diagnostic-framework

标签

Cards List
#diagnostic-framework

ToolSense: 用于审计大语言模型中参数化工具知识的诊断框架

arXiv cs.AI · 6天前 缓存

ToolSense 是一个开源诊断框架,能够生成三个基准测试(真实检索、多选题探测、问答探测),用于审计大语言模型的参数化工具知识,揭示了知识-检索分离现象:强大的检索性能可能与较差的事实理解共存。

0 人收藏 0 人点赞
#diagnostic-framework

生物医学命名实体识别与实体链接基准测试究竟衡量什么?一个语料库中心的诊断框架

arXiv cs.CL · 2026-05-21 缓存

本文提出了一种以语料库为中心的诊断框架,用于分析生物医学NER和EL基准测试,揭示了九个语料库之间的显著差异,并论证了标准统计量不足以描述评估需求。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈