标签
本文介绍了 IRC-Bench,这是一个用于在自传体回忆中识别隐式实体的基准测试,侧重于利用语境线索而非显式提及。文章评估了各种大型语言模型(LLM)和检索配置,发现经过 QLoRA 微调的 Llama 3.1 8B 在开放世界设置中表现最佳。