从大语言模型中蒸馏答案集编程规则用于神经符号视觉问答
摘要
本文提出了一种从大语言模型中蒸馏答案集编程规则的方法,以增强神经符号视觉问答,结果表明仅需少量示例即可生成正确的规则。
arXiv:2606.03269v1 Announce Type: new
摘要:视觉问答(VQA)是回答关于图像问题的任务,需要整合多模态输入和推理。将基于逻辑的表示纳入推理组件的模块化方法,与端到端训练的系统相比具有明显优势,尤其是在可解释性方面。然而,当任务需求变化时,调整或扩展这些表示会给开发者带来沉重负担。为了解决这一挑战,我们提出了一种从大语言模型(LLM)中蒸馏规则的方法。我们的方法提示LLM扩展初始的VQA推理理论(以答案集程序表示),以满足任务的新需求。来自VQA数据集的示例引导LLM,验证结果,并通过利用ASP求解器的反馈帮助修正错误规则。我们证明了该方法在多种VQA数据集上均有效。值得注意的是,仅需少量示例即可从LLM中生成正确的规则。我们的实验表明,从LLM中蒸馏规则是传统数据驱动规则学习方法的一个有前景的替代方案。已在《逻辑编程理论与实践》(TPLP)中考虑。
查看缓存全文
缓存时间: 2026/06/03 09:43
# 从大语言模型中蒸馏答案集编程规则用于神经符号视觉问答 来源:https://arxiv.org/abs/2606.03269 查看 PDF(https://arxiv.org/pdf/2606.03269) > 摘要:视觉问答(VQA)是一项关于图像回答问题的任务,需要整合多模态输入和推理能力。将基于逻辑的表征融入推理组件的模块化方法,相比端到端训练的系统具有明显优势,尤其在可解释性方面。然而,当任务需求变化时,调整或扩展这些表征可能会给开发者带来沉重负担。为应对这一挑战,我们提出了一种从大语言模型(LLM)中蒸馏规则的方法。我们的方法通过提示 LLM 扩展初始的 VQA 推理理论(以答案集程序形式表达),以满足任务的新要求。VQA 数据集中的示例用于引导 LLM、验证结果,并借助 ASP 求解器的反馈帮助纠正错误规则。我们证明了该方法在多种 VQA 数据集上均有效。值得注意的是,仅需少量示例即可从 LLM 中引出正确规则。实验表明,从 LLM 中蒸馏规则是传统数据驱动规则学习的一种有前景的替代方案。本文投稿于《逻辑编程理论与实践》(TPLP)。 ## 提交历史 来自:Nelson Higuera [查看电子邮件](https://arxiv.org/show-email/82bd9d7c/2606.03269) **\[v1\]** 2026年6月2日星期二 07:35:31 UTC(4,544 KB)
相似文章
用于视觉问答的神经模块网络
本文解析了论文《Deep Compositional Question Answering with Neural Module Networks》中提出的神经模块网络(NMN)架构,详细阐述了其如何通过将问题分解为模块化的步骤来处理视觉问答任务中的组合结构。
大型语言模型中用于结构推理的视觉图支架
本文探讨了将视觉图思维导图用作LLMs的推理支架,发现即使没有直接答案提示,视觉引导仍然有效,而将图扁平化为文本则会失去优势。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
面向数据敏感领域的LLM输出的神经符号验证(扩展预印本)
本文提出了一种针对高风险领域LLM输出的神经符号验证架构,结合形式化符号方法与神经语义分析。在一个医疗器械损伤评估系统上进行的评估显示,该架构对结构化实体的幻觉检测率超过83%,语义虚构的检测率达72%,报告创建时间缩短30%。
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。