探究LLM的问题解决能力——静力学问题研究

arXiv cs.CL 论文

摘要

本文评估了LLM在静力学问题上的表现,发现虽然纯文本问题处理得较好,但引入图表和多步推理后准确率下降,表明模型在持续应用视觉信息方面存在困难。

arXiv:2606.26103v1 Announce Type: new 摘要:大型语言模型(LLMs)因其在跨学科作业和考试中展现出的能力,迅速影响了社会的诸多方面,尤其是教育领域。尽管已有研究探讨了LLMs的教育影响,但多数工作依赖于公开或开放的问题数据集,缺乏针对特定主题的分析。在工程教育中,特别是机械工程领域,关于LLMs在特定问题类型上表现的系统性研究仍然有限。不同于传统方法直接向LLM工具提问教科书问题,我们的研究采用模型蒸馏过程来评估LLM解决静力学问题的能力。通过对ChatGPT进行蒸馏,我们提取了25个纯文本静力学问题,并通过添加图表和修改数值进一步构建了两个附加数据集。实验结果显示,虽然LLMs在纯文本静力学问题上表现良好,但引入图表后准确率下降,且问题需要多步推理时尤为明显。进一步分析表明,这种性能下降并非主要由图像识别能力的限制引起,而是由于多步推理的困难以及在连续解决阶段中一致应用提取的视觉信息存在挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:13

# 探究大语言模型的问题解决能力——基于静力学题目的研究  
来源:https://arxiv.org/abs/2606.26103  
查看PDF(https://arxiv.org/pdf/2606.26103)  

> 摘要:大型语言模型(LLM)因其在广泛学科中展示出的完成作业和考试的能力,已迅速影响到社会的诸多方面,尤其是教育领域。尽管已有研究探讨了LLM对教育的影响,但现有工作大多依赖公开或开放的问题数据集,且缺乏针对特定主题的分析。在工程教育中,特别是机械工程领域,针对LLM在特定题型上表现的系统性研究仍然有限。与直接向LLM工具提问教科书问题的传统方法不同,我们的研究采用了模型蒸馏过程来评估LLM解决静力学问题的能力。通过蒸馏ChatGPT,我们提取了25个纯文本静力学问题,并进一步构建了两个额外数据集——一个添加了图表,另一个修改了数值。实验结果表明,虽然LLM在纯文本静力学问题上表现良好,但当引入图表且问题需要多步推理时,其准确率会下降。进一步分析表明,这种性能下降的主要原因并非图像识别能力的局限,而是多步推理的困难,以及在连续求解阶段中一致性地应用提取到的视觉信息所遇到的挑战。

## 提交历史

来自:Hung-Fu Chang [查看邮件(https://arxiv.org/show-email/e2765be9/2606.26103)]  
**[v1]** 2026年4月30日 星期四 20:17:09 UTC(791 KB)

相似文章

像科学家一样思考?LLM生成研究方法的结构化研究

arXiv cs.CL

本研究探讨了当仅提供研究问题时,LLM如何推荐研究方法(数据集、模型、指标),发现LLM表现出强烈的提供者偏差,且相比实际论文所提出的方法范围要窄得多,这可能会缩小研究者的方法论搜索空间。