小型语言模型的代码引导推理:可执行MCQA脚手架评估
摘要
本文介绍了代码引导推理(CGR),一种评估协议,用于衡量可执行推理脚手架如何提升小型语言模型在多项选择问答任务上的表现,结果显示其准确率相较于直接回答有显著提升。
查看缓存全文
缓存时间: 2026/05/20 06:36
论文页面 - 面向小型语言模型的代码引导推理:评估可执行多项选择问答脚手架
来源:https://huggingface.co/papers/2605.18827
摘要
代码引导推理(CGR)旨在评估可执行推理脚手架如何通过标准化组件和可衡量的改进,提升小型语言模型在多项选择问答任务中的表现。
多项选择问答(https://huggingface.co/papers?q=Multiple-choice%20QA)基准测试通常将小型语言模型(https://huggingface.co/papers?q=small%20language%20models)(SLM)作为直接回答者进行评估,但已部署的语言模型系统越来越依赖外部脚手架,例如工具、代码和重复模型调用。我们引入了代码引导推理(https://huggingface.co/papers?q=Code-Guided%20Reasoning)(CGR),这是一种评估协议和生成程序资源,用于衡量可执行推理(https://huggingface.co/papers?q=executable%20reasoning)脚手架何时能提升SLM在多项选择问答任务上的表现。CGR标准化了六个组件:标准化题目接口、直接求解器提示(https://huggingface.co/papers?q=direct%20solver%20prompt)、生成器提示(https://huggingface.co/papers?q=generator%20prompt)、Python脚手架(https://huggingface.co/papers?q=Python%20scaffold)、求解器调用与提取辅助函数,以及三通道结果记录。在来自本地准备的多项选择问答包和六个元数据注册求解器模型的20,498条保留结果行上,观察到的非零基线分区显示,辅助准确率为66.21%,而直接准确率为38.11%,差异为+28.10个百分点,配对自助法区间(https://huggingface.co/papers?q=bootstrap%20interval)为[20.32, 36.43]。在更严格的 Ab > 30% 直接信号门限(https://huggingface.co/papers?q=direct-signal%20gate)下,宏平均差异为+14.11点。这些估计是描述性的。辅助推理使用了更大的求解器调用预算,答案提取(https://huggingface.co/papers?q=answer%20extraction)较为脆弱,Time-MQA包含了观察到的性能倒退,部分生成程序(https://huggingface.co/papers?q=generated%20programs)违反了“无硬编码”指令。CGR提供了理解这些结果所需的追踪包(https://huggingface.co/papers?q=trace%20package),包括直接答案、辅助答案、生成器侧答案、分区定义、生成程序(https://huggingface.co/papers?q=generated%20programs)、响应元数据(https://huggingface.co/papers?q=response%20metadata)以及审计信息。
查看arXiv页面(https://arxiv.org/abs/2605.18827)查看PDF(https://arxiv.org/pdf/2605.18827)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18827)
在您的代理中获取此论文:
hf papers read 2605\.18827
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
没有模型链接至本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。
引用本论文的数据集0
没有数据集链接至本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。
引用本论文的 Spaces0
没有 Space 链接至本论文
请在 Space README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。
包含本论文的收藏集0
没有收藏集包含本论文
请将本论文添加至一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
推理、代码,还是两者兼有?大型语言模型如何处理数学问题的变化
本文使用 Claude Haiku 4.5 在 1000 个 GSM-Symbolic 问题上评估了三种方法(纯思维链推理、单次代码执行和迭代代码执行),发现思维链对扰动最为鲁棒,而代码执行并未提升小学数学问题的推理鲁棒性。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。
MedGuideX:将可执行指南中的决策逻辑内化至大型语言模型用于临床推理
MedGuideX 将临床实践指南转化为可执行的决策逻辑,以生成事实性和反事实性的问答数据用于训练医学大语言模型,在临床推理基准测试中实现了平均准确率相对提升 10.28%。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
解码大型推理模型中的批判机制
本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。