标签
本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集(MMIO),并介绍了改进文本-视觉提示(RTVP)方法,在该基准上取得了最优结果。
本文介绍了一种基于程序思维提示(Program-of-Thoughts prompting)的零样本图表摘要策略,其中轻量级视觉语言模型(VLMs)生成Python程序来计算统计数据,从而在事实准确性上优于现有方法。