探究LLM的问题解决能力——静力学问题研究
摘要
本文评估了LLM在静力学问题上的表现,发现虽然纯文本问题处理得较好,但引入图表和多步推理后准确率下降,表明模型在持续应用视觉信息方面存在困难。
arXiv:2606.26103v1 Announce Type: new
摘要:大型语言模型(LLMs)因其在跨学科作业和考试中展现出的能力,迅速影响了社会的诸多方面,尤其是教育领域。尽管已有研究探讨了LLMs的教育影响,但多数工作依赖于公开或开放的问题数据集,缺乏针对特定主题的分析。在工程教育中,特别是机械工程领域,关于LLMs在特定问题类型上表现的系统性研究仍然有限。不同于传统方法直接向LLM工具提问教科书问题,我们的研究采用模型蒸馏过程来评估LLM解决静力学问题的能力。通过对ChatGPT进行蒸馏,我们提取了25个纯文本静力学问题,并通过添加图表和修改数值进一步构建了两个附加数据集。实验结果显示,虽然LLMs在纯文本静力学问题上表现良好,但引入图表后准确率下降,且问题需要多步推理时尤为明显。进一步分析表明,这种性能下降并非主要由图像识别能力的限制引起,而是由于多步推理的困难以及在连续解决阶段中一致应用提取的视觉信息存在挑战。
查看缓存全文
缓存时间: 2026/06/26 05:13
# 探究大语言模型的问题解决能力——基于静力学题目的研究 来源:https://arxiv.org/abs/2606.26103 查看PDF(https://arxiv.org/pdf/2606.26103) > 摘要:大型语言模型(LLM)因其在广泛学科中展示出的完成作业和考试的能力,已迅速影响到社会的诸多方面,尤其是教育领域。尽管已有研究探讨了LLM对教育的影响,但现有工作大多依赖公开或开放的问题数据集,且缺乏针对特定主题的分析。在工程教育中,特别是机械工程领域,针对LLM在特定题型上表现的系统性研究仍然有限。与直接向LLM工具提问教科书问题的传统方法不同,我们的研究采用了模型蒸馏过程来评估LLM解决静力学问题的能力。通过蒸馏ChatGPT,我们提取了25个纯文本静力学问题,并进一步构建了两个额外数据集——一个添加了图表,另一个修改了数值。实验结果表明,虽然LLM在纯文本静力学问题上表现良好,但当引入图表且问题需要多步推理时,其准确率会下降。进一步分析表明,这种性能下降的主要原因并非图像识别能力的局限,而是多步推理的困难,以及在连续求解阶段中一致性地应用提取到的视觉信息所遇到的挑战。 ## 提交历史 来自:Hung-Fu Chang [查看邮件(https://arxiv.org/show-email/e2765be9/2606.26103)] **[v1]** 2026年4月30日 星期四 20:17:09 UTC(791 KB)
相似文章
面向LLM推理的科学逻辑性增强方法:以物理学为例
本文介绍了一种增强LLM推理中科学逻辑性的方法论,包括评估标准与数据采样方法,并通过多款基座LLM在物理问题上的实验验证了其有效性。
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
像科学家一样思考?LLM生成研究方法的结构化研究
本研究探讨了当仅提供研究问题时,LLM如何推荐研究方法(数据集、模型、指标),发现LLM表现出强烈的提供者偏差,且相比实际论文所提出的方法范围要窄得多,这可能会缩小研究者的方法论搜索空间。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。