多模态LLM中的乘法:基于文本、图像和音频输入的计算

Hugging Face Daily Papers 论文

摘要

# 论文页面 - 多模态LLM中的乘法:基于文本、图像和音频输入的计算 来源:[https://huggingface.co/papers/2604.18203](https://huggingface.co/papers/2604.18203) ## 摘要 多模态大语言模型在不同的表示形式与模态下执行精确的多位数乘法时,均表现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标比传统的步骤计数方法更能预测准确性

多模态LLM能够准确地跨模态感知数值内容,但当相同的底层算术问题以数字、数词、图像或音频形式呈现时,却无法执行精确的多位数乘法。由于现有的基准测试通常缺乏跨模态的系统配对实例,因此难以在模型家族内部及之间比较真正的算术极限。为此,我们引入了一个受控的多模态乘法基准测试,该基准以全因子设计系统地变化数字长度、数字稀疏度、表示形式(例如,数字与数词)和模态(文本、渲染图像、音频),并通过可复现的生成器提供配对实例。我们还定义了算术负载C,将其表示为总位数与非零位数的乘积,作为操作次数的一个简洁且受机制驱动的代理指标。在各项评估中,随着C的增加,准确率急剧下降,当C > 100时通常趋近于零。事实上,C始终对跨模态和跨模型的性能具有预测力,R方通常大于0.5,接近那些通过计算中间算术步骤数量来衡量的更复杂算术负载指标的值。一项单独的感知与计算分解分析表明,多模态性能的下降主要源于计算而非感知:在匹配的感知检查中,各模态下模型的表现接近完美(> 99%),即使乘法准确率有所下降。除了测量模型在何时失效,我们还探究它们倾向于遵循哪些程序。我们引入了一种强制补全损失探针,用于为特定启发式的推理前缀打分——包括竖式乘法、分配律分解以及取整/补偿法。结果显示,分解在文本和视觉模态中均受到偏好;特定启发式的LoRA适配器产生了近似正交的更新,但却会降低准确率,这表明基础模型维持了一个经过良好调优的内部路由器。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - 多模态 LLM 中的乘法:基于文本、图像与音频输入的计算

来源:https://huggingface.co/papers/2604.18203

摘要

多模态大语言模型在不同表示形式与模态下的精确多位数乘法任务中,展现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标在预测准确率方面优于传统的步数统计方法。

多模态大语言模型(Multimodal LLMs,https://huggingface.co/papers?q=Multimodal%20LLMs)能够跨模态准确感知数值内容,但当相同的基础算术问题以数字、数词、图像或音频形式呈现时,却无法完成精确的多位数乘法。由于现有基准测试通常缺乏跨模态的系统性配对实例,因此很难在模型家族内部及之间比较真正的算术能力极限。因此,我们引入了一个受控的多模态乘法基准,通过因子设计系统地变化数字长度、数字稀疏度、表示形式(如数字 vs. 数词)和模态(文本、渲染图像、音频),并使用可复现的生成器提供配对样本。我们还将算术负载(arithmetic load,https://huggingface.co/papers?q=arithmetic%20load)C 定义为总位数与非零位数的乘积,作为一个简洁且受机制驱动的操作次数代理指标。在各项评估中,准确率随 C 增大而急剧下降,当 C > 100 时往往趋近于零。事实上,C 在跨模态和跨模型的情况下始终具有预测力,R² 通常 > 0.5,接近那些通过统计中间算术步骤数量来衡量的更复杂算术负载(arithmetic load,https://huggingface.co/papers?q=arithmetic%20load)指标的值。一项独立的感知-计算分解实验表明,多模态性能下降主要是计算层面的,而非感知层面:在感知对齐检验中,即使乘法准确率下降,模型在各模态下的表现也近乎完美(> 99%)。除了测量模型在何时失败,我们还探究它们倾向于遵循哪些解题程序。我们引入了一种强制补全损失探针(forced-completion loss probe,https://huggingface.co/papers?q=forced-completion%20loss%20probe),用于为特定启发式推理(heuristic-specific reasoning,https://huggingface.co/papers?q=heuristic-specific%20reasoning)前缀打分——包括列竖式乘法(columnar multiplication,https://huggingface.co/papers?q=columnar%20multiplication)、分配律分解(distributive decomposition,https://huggingface.co/papers?q=distributive%20decomposition)以及取整/补偿法(rounding/compensation,https://huggingface.co/papers?q=rounding%2Fcompensation)。研究发现,分解法在文本和视觉模态中均受到偏好;特定启发式的 LoRA 适配器(LoRA adapters,https://huggingface.co/papers?q=LoRA%20adapters)产生了近似正交的更新,却会损害准确率,这表明基础模型内部维持着一个调校良好的路由器(internal router,https://huggingface.co/papers?q=internal%20router)。

查看 arXiv 页面查看 PDF项目页面添加到收藏

在你的 agent 中获取这篇论文:

hf papers read 2604.18203

还没有安装最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。

引用该论文的数据集 0

没有数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。

引用该论文的 Spaces 0

没有 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。

包含该论文的收藏集 0

没有收藏集包含该论文

将该论文添加到收藏集,即可从本页面建立链接。

相似文章

多模态大语言模型评估中我们缺失了什么?

arXiv cs.AI

本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。