Multi-LCB：将LiveCodeBench扩展到多种编程语言

Hugging Face Daily Papers 2026/06/18 00:00 论文

摘要

Multi-LCB 将 LiveCodeBench 基准扩展到十二种编程语言，以评估大型语言模型，同时保留污染控制机制，揭示了 Python 过拟合和语言特定的污染问题。

LiveCodeBench (LCB) 最近已成为广泛采用的基准，用于评估大型语言模型（LLM）在代码生成任务上的表现。通过精心挑选竞赛编程问题、不断向集合中添加新问题并根据发布日期进行筛选，LCB 提供了具有污染感知的评估，并提供了编程能力的整体视图。然而，LCB 仍然仅限于 Python，这提出了一个问题：LLM 是否能泛化到现实世界软件工程所需的各种编程语言？我们引入了 Multi-LCB，这是一个涵盖包括 Python 在内的十二种编程语言的 LLM 评估基准。Multi-LCB 将 LCB 数据集中的 Python 任务转化为其他语言的等效任务，同时保留 LCB 的污染控制和评估协议。由于与原始 LCB 格式完全兼容，Multi-LCB 将自动跟踪未来的 LCB 更新，从而能够系统地评估跨语言代码生成能力，并要求模型在超越 Python 的范围内保持性能。我们在 Multi-LCB 上评估了 24 个 LLM 的指令遵循和推理能力，发现了 Python 过拟合、语言特定的污染以及多语言性能上的显著差异。我们的结果将 Multi-LCB 确立为一个严格的多编程语言代码评估新基准，直接解决了 LCB 的主要局限性，并揭示了当前 LLM 能力中的关键差距。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - Multi-LCB: 将LiveCodeBench扩展到多种编程语言

来源: https://huggingface.co/papers/2606.20517

摘要

Multi-LCB 弥补了 LiveCodeBench 的局限性，提供了一个多语言基准，用于评估 LLM 在十二种编程语言上的表现，同时保留了污染控制和评估协议。

LiveCodeBench (LCB) 最近已成为评估大型语言模型 (LLM) 在代码生成任务上的广泛采用的基准测试。通过整理竞赛编程题目、不断向题目集添加新题并按发布日期进行过滤，LCB 提供了污染感知的评估，并对编码能力提供了全面视角。然而，LCB 仍然局限于 Python，留下了一个悬而未决的问题：LLM 能否泛化到现实软件工程中所需的各种编程语言？我们引入了 Multi-LCB，这是一个用于评估 LLM 在包括 Python 在内的十二种编程语言上的基准测试。Multi-LCB 将 LCB 数据集中的 Python 任务转换为其他语言的等价任务，同时保留 LCB 的污染控制与评估协议。由于它与原始 LCB 格式完全兼容，Multi-LCB 将自动跟踪未来的 LCB 更新，从而能够系统评估跨语言代码生成能力，并要求模型在 Python 之外也保持良好性能。我们在 Multi-LCB 上评估了 24 个指令模型和推理模型，发现了 Python 过拟合、语言特定污染以及多语言性能上的显著差异。我们的结果将 Multi-LCB 确立为用于多编程语言代码评估的严格新基准，直接解决了 LCB 的主要局限性，并揭示了当前 LLM 能力的关键缺口。

查看 arXiv 页面 (https://arxiv.org/abs/2606.20517)查看 PDF (https://arxiv.org/pdf/2606.20517)项目页面 (https://multi-lcb.github.io/)GitHub22 (https://github.com/Multi-LCB/Multi-LCB)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20517)

在您的代理中获取此论文：

hf papers read 2606.20517

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

引用该论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

Multi-LCB：将LiveCodeBench扩展到多种编程语言

论文页面 - Multi-LCB: 将LiveCodeBench扩展到多种编程语言

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏集0

相似文章

开源LLM基准测试每4小时运行147个编码任务，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

XL-SafetyBench：一个基于国家的跨文化LLM安全与文化敏感性基准

XLGoBench: 通过算法任务检测跨语言技能差距

mmPISA-bench：LLMs 在43种语言中的推理能力是否同样出色？

LingxiDiagBench：一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架

提交意见反馈