多模态LLM中的乘法:基于文本、图像和音频输入的计算
摘要
# 论文页面 - 多模态LLM中的乘法:基于文本、图像和音频输入的计算 来源:[https://huggingface.co/papers/2604.18203](https://huggingface.co/papers/2604.18203) ## 摘要 多模态大语言模型在不同的表示形式与模态下执行精确的多位数乘法时,均表现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标比传统的步骤计数方法更能预测准确性
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - 多模态 LLM 中的乘法:基于文本、图像与音频输入的计算
来源:https://huggingface.co/papers/2604.18203
摘要
多模态大语言模型在不同表示形式与模态下的精确多位数乘法任务中,展现出一致的计算局限性;其性能与一种新颖的算术负载指标密切相关,该指标在预测准确率方面优于传统的步数统计方法。
多模态大语言模型(Multimodal LLMs,https://huggingface.co/papers?q=Multimodal%20LLMs)能够跨模态准确感知数值内容,但当相同的基础算术问题以数字、数词、图像或音频形式呈现时,却无法完成精确的多位数乘法。由于现有基准测试通常缺乏跨模态的系统性配对实例,因此很难在模型家族内部及之间比较真正的算术能力极限。因此,我们引入了一个受控的多模态乘法基准,通过因子设计系统地变化数字长度、数字稀疏度、表示形式(如数字 vs. 数词)和模态(文本、渲染图像、音频),并使用可复现的生成器提供配对样本。我们还将算术负载(arithmetic load,https://huggingface.co/papers?q=arithmetic%20load)C 定义为总位数与非零位数的乘积,作为一个简洁且受机制驱动的操作次数代理指标。在各项评估中,准确率随 C 增大而急剧下降,当 C > 100 时往往趋近于零。事实上,C 在跨模态和跨模型的情况下始终具有预测力,R² 通常 > 0.5,接近那些通过统计中间算术步骤数量来衡量的更复杂算术负载(arithmetic load,https://huggingface.co/papers?q=arithmetic%20load)指标的值。一项独立的感知-计算分解实验表明,多模态性能下降主要是计算层面的,而非感知层面:在感知对齐检验中,即使乘法准确率下降,模型在各模态下的表现也近乎完美(> 99%)。除了测量模型在何时失败,我们还探究它们倾向于遵循哪些解题程序。我们引入了一种强制补全损失探针(forced-completion loss probe,https://huggingface.co/papers?q=forced-completion%20loss%20probe),用于为特定启发式推理(heuristic-specific reasoning,https://huggingface.co/papers?q=heuristic-specific%20reasoning)前缀打分——包括列竖式乘法(columnar multiplication,https://huggingface.co/papers?q=columnar%20multiplication)、分配律分解(distributive decomposition,https://huggingface.co/papers?q=distributive%20decomposition)以及取整/补偿法(rounding/compensation,https://huggingface.co/papers?q=rounding%2Fcompensation)。研究发现,分解法在文本和视觉模态中均受到偏好;特定启发式的 LoRA 适配器(LoRA adapters,https://huggingface.co/papers?q=LoRA%20adapters)产生了近似正交的更新,却会损害准确率,这表明基础模型内部维持着一个调校良好的路由器(internal router,https://huggingface.co/papers?q=internal%20router)。
在你的 agent 中获取这篇论文:
hf papers read 2604.18203
还没有安装最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
没有模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。
引用该论文的数据集 0
没有数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。
引用该论文的 Spaces 0
没有 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.18203,即可从本页面建立链接。
包含该论文的收藏集 0
没有收藏集包含该论文
将该论文添加到收藏集,即可从本页面建立链接。
相似文章
多模态大语言模型评估中我们缺失了什么?
本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。
MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架
本文介绍MODE,一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架,通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差,在激进量化下实现极小的性能损失。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
从感知到决策:多模态大语言模型中听觉与视觉感知的信息流
本文研究了音频与视觉信息在音频-视觉大语言模型(AVLLMs)中的流动方式,揭示了AVLLMs根据输入配置采取顺序或并行路由,并且某些token在信息传输后可被丢弃以提高效率。