从大语言模型中蒸馏答案集编程规则用于神经符号视觉问答

arXiv cs.AI 2026/06/03 04:00 论文

摘要

本文提出了一种从大语言模型中蒸馏答案集编程规则的方法，以增强神经符号视觉问答，结果表明仅需少量示例即可生成正确的规则。

arXiv:2606.03269v1 Announce Type: new 摘要：视觉问答（VQA）是回答关于图像问题的任务，需要整合多模态输入和推理。将基于逻辑的表示纳入推理组件的模块化方法，与端到端训练的系统相比具有明显优势，尤其是在可解释性方面。然而，当任务需求变化时，调整或扩展这些表示会给开发者带来沉重负担。为了解决这一挑战，我们提出了一种从大语言模型（LLM）中蒸馏规则的方法。我们的方法提示LLM扩展初始的VQA推理理论（以答案集程序表示），以满足任务的新需求。来自VQA数据集的示例引导LLM，验证结果，并通过利用ASP求解器的反馈帮助修正错误规则。我们证明了该方法在多种VQA数据集上均有效。值得注意的是，仅需少量示例即可从LLM中生成正确的规则。我们的实验表明，从LLM中蒸馏规则是传统数据驱动规则学习方法的一个有前景的替代方案。已在《逻辑编程理论与实践》（TPLP）中考虑。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:43

# 从大语言模型中蒸馏答案集编程规则用于神经符号视觉问答
来源：https://arxiv.org/abs/2606.03269
查看 PDF（https://arxiv.org/pdf/2606.03269）

> 摘要：视觉问答（VQA）是一项关于图像回答问题的任务，需要整合多模态输入和推理能力。将基于逻辑的表征融入推理组件的模块化方法，相比端到端训练的系统具有明显优势，尤其在可解释性方面。然而，当任务需求变化时，调整或扩展这些表征可能会给开发者带来沉重负担。为应对这一挑战，我们提出了一种从大语言模型（LLM）中蒸馏规则的方法。我们的方法通过提示 LLM 扩展初始的 VQA 推理理论（以答案集程序形式表达），以满足任务的新要求。VQA 数据集中的示例用于引导 LLM、验证结果，并借助 ASP 求解器的反馈帮助纠正错误规则。我们证明了该方法在多种 VQA 数据集上均有效。值得注意的是，仅需少量示例即可从 LLM 中引出正确规则。实验表明，从 LLM 中蒸馏规则是传统数据驱动规则学习的一种有前景的替代方案。本文投稿于《逻辑编程理论与实践》（TPLP）。

## 提交历史

来自：Nelson Higuera [查看电子邮件](https://arxiv.org/show-email/82bd9d7c/2606.03269) **\[v1\]** 2026年6月2日星期二 07:35:31 UTC（4,544 KB）

从大语言模型中蒸馏答案集编程规则用于神经符号视觉问答

相似文章

用于视觉问答的神经模块网络

答案集编程焕发活力！使用ASP和能量模型的端到端神经符号推理与学习

RIMRULE: 通过MDL引导的规则学习改进工具使用语言代理

当没有正确答案时：诊断视频理解中多模态大语言模型的缺失答案检测

大型语言模型中用于结构推理的视觉图支架

提交意见反馈