标签
本文提出了一种迭代式调节框架,通过改进和重用标注指南来提升基于LLM的标注性能,并在使用GPT、Gemini和DeepSeek模型的生物医学NER任务上进行了验证。
本文提出了一种以语料库为中心的诊断框架,用于分析生物医学NER和EL基准测试,揭示了九个语料库之间的显著差异,并论证了标准统计量不足以描述评估需求。