标签
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
MoCA-Agent是一种声明市场代码智能体,通过将问题分解为原子声明并使用专业智能体买卖这些声明来改进金融和数值推理,在使用固定Qwen 3.6-27B主干的情况下,在多个基准测试中取得了强劲结果。
本文介绍了MAD2,一个用于口语对话中多模态声明验证的新基准,并提出了音频和文本模型的校准融合,利用对话上下文来提高验证准确性。
本文介绍了 PrimeFacts,这是一种利用大语言模型从事实核查文章中提取细粒度证据的方法论与资源。所提取的前提将证据检索和声明验证的性能提高了多达 30%(在 MRR 指标上)以及 10-20 个百分点(在 Macro-F1 指标上)。