小型语言模型的代码引导推理：可执行MCQA脚手架评估

Hugging Face Daily Papers 2026/05/12 00:00 论文

small-language-models reasoning code-guided-reasoning mcqa evaluation scaffolds python

摘要

本文介绍了代码引导推理（CGR），一种评估协议，用于衡量可执行推理脚手架如何提升小型语言模型在多项选择问答任务上的表现，结果显示其准确率相较于直接回答有显著提升。

多项选择问答基准测试通常将小型语言模型（SLM）作为直接回答者进行评估，但实际部署的语言模型系统越来越依赖外部脚手架，例如工具、代码和重复模型调用。我们引入了代码引导推理（CGR），这是一个评估协议和生成的程序资源，用于衡量可执行推理脚手架何时能提升SLM在MCQA任务上的表现。CGR标准化了六个组件：归一化题目接口、直接求解提示、生成提示、Python脚手架、求解调用和提取辅助函数，以及三通道结果记录。在来自本地准备的MCQA包和六个元数据注册求解模型的20,498个保留结果行中，观察到的非零基线分区显示，宏平均辅助准确率为66.21%，而直接准确率为38.11%，差异为+28.10个百分点，配对自助法区间为[20.32, 36.43]。在更严格的Ab > 30%直接信号门控下，宏平均差异为+14.11个百分点。这些估计是描述性的。辅助推理使用了更大的求解调用预算，答案提取存在脆弱性，Time-MQA包含了观察到的回归，并且某些生成的程序违反了无硬编码指令。CGR提供了解释这些结果所需的跟踪包，包括直接答案、辅助答案和生成器侧答案、分区定义、生成的程序、响应元数据和审计信息。

查看原文

查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - 面向小型语言模型的代码引导推理：评估可执行多项选择问答脚手架

来源：https://huggingface.co/papers/2605.18827

摘要

代码引导推理（CGR）旨在评估可执行推理脚手架如何通过标准化组件和可衡量的改进，提升小型语言模型在多项选择问答任务中的表现。

多项选择问答（https://huggingface.co/papers?q=Multiple-choice%20QA）基准测试通常将小型语言模型（https://huggingface.co/papers?q=small%20language%20models）（SLM）作为直接回答者进行评估，但已部署的语言模型系统越来越依赖外部脚手架，例如工具、代码和重复模型调用。我们引入了代码引导推理（https://huggingface.co/papers?q=Code-Guided%20Reasoning）（CGR），这是一种评估协议和生成程序资源，用于衡量可执行推理（https://huggingface.co/papers?q=executable%20reasoning）脚手架何时能提升SLM在多项选择问答任务上的表现。CGR标准化了六个组件：标准化题目接口、直接求解器提示（https://huggingface.co/papers?q=direct%20solver%20prompt）、生成器提示（https://huggingface.co/papers?q=generator%20prompt）、Python脚手架（https://huggingface.co/papers?q=Python%20scaffold）、求解器调用与提取辅助函数，以及三通道结果记录。在来自本地准备的多项选择问答包和六个元数据注册求解器模型的20,498条保留结果行上，观察到的非零基线分区显示，辅助准确率为66.21%，而直接准确率为38.11%，差异为+28.10个百分点，配对自助法区间（https://huggingface.co/papers?q=bootstrap%20interval）为[20.32, 36.43]。在更严格的 Ab > 30% 直接信号门限（https://huggingface.co/papers?q=direct-signal%20gate）下，宏平均差异为+14.11点。这些估计是描述性的。辅助推理使用了更大的求解器调用预算，答案提取（https://huggingface.co/papers?q=answer%20extraction）较为脆弱，Time-MQA包含了观察到的性能倒退，部分生成程序（https://huggingface.co/papers?q=generated%20programs）违反了“无硬编码”指令。CGR提供了理解这些结果所需的追踪包（https://huggingface.co/papers?q=trace%20package），包括直接答案、辅助答案、生成器侧答案、分区定义、生成程序（https://huggingface.co/papers?q=generated%20programs）、响应元数据（https://huggingface.co/papers?q=response%20metadata）以及审计信息。

查看arXiv页面（https://arxiv.org/abs/2605.18827）查看PDF（https://arxiv.org/pdf/2605.18827）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18827）

在您的代理中获取此论文：

hf papers read 2605\.18827

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接至本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。

引用本论文的数据集0

没有数据集链接至本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。

引用本论文的 Spaces0

没有 Space 链接至本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18827 以在此页面建立链接。

包含本论文的收藏集0

没有收藏集包含本论文

请将本论文添加至一个收藏集（https://huggingface.co/new-collection）以在此页面建立链接。

小型语言模型的代码引导推理：可执行MCQA脚手架评估

论文页面 - 面向小型语言模型的代码引导推理：评估可执行多项选择问答脚手架

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏集0

相似文章

推理、代码，还是两者兼有？大型语言模型如何处理数学问题的变化

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

MedGuideX：将可执行指南中的决策逻辑内化至大型语言模型用于临床推理

大型语言模型中的数学推理：基准、架构、评估与开放挑战

解码大型推理模型中的批判机制

提交意见反馈