Multi-LCB:将LiveCodeBench扩展到多种编程语言

Hugging Face Daily Papers 论文

摘要

Multi-LCB 将 LiveCodeBench 基准扩展到十二种编程语言,以评估大型语言模型,同时保留污染控制机制,揭示了 Python 过拟合和语言特定的污染问题。

LiveCodeBench (LCB) 最近已成为广泛采用的基准,用于评估大型语言模型(LLM)在代码生成任务上的表现。通过精心挑选竞赛编程问题、不断向集合中添加新问题并根据发布日期进行筛选,LCB 提供了具有污染感知的评估,并提供了编程能力的整体视图。然而,LCB 仍然仅限于 Python,这提出了一个问题:LLM 是否能泛化到现实世界软件工程所需的各种编程语言? 我们引入了 Multi-LCB,这是一个涵盖包括 Python 在内的十二种编程语言的 LLM 评估基准。Multi-LCB 将 LCB 数据集中的 Python 任务转化为其他语言的等效任务,同时保留 LCB 的污染控制和评估协议。由于与原始 LCB 格式完全兼容,Multi-LCB 将自动跟踪未来的 LCB 更新,从而能够系统地评估跨语言代码生成能力,并要求模型在超越 Python 的范围内保持性能。 我们在 Multi-LCB 上评估了 24 个 LLM 的指令遵循和推理能力,发现了 Python 过拟合、语言特定的污染以及多语言性能上的显著差异。我们的结果将 Multi-LCB 确立为一个严格的多编程语言代码评估新基准,直接解决了 LCB 的主要局限性,并揭示了当前 LLM 能力中的关键差距。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - Multi-LCB: 将LiveCodeBench扩展到多种编程语言

来源: https://huggingface.co/papers/2606.20517

摘要

Multi-LCB 弥补了 LiveCodeBench 的局限性,提供了一个多语言基准,用于评估 LLM 在十二种编程语言上的表现,同时保留了污染控制和评估协议。

LiveCodeBench (LCB) 最近已成为评估大型语言模型 (LLM) 在代码生成任务上的广泛采用的基准测试。通过整理竞赛编程题目、不断向题目集添加新题并按发布日期进行过滤,LCB 提供了污染感知的评估,并对编码能力提供了全面视角。然而,LCB 仍然局限于 Python,留下了一个悬而未决的问题:LLM 能否泛化到现实软件工程中所需的各种编程语言?我们引入了 Multi-LCB,这是一个用于评估 LLM 在包括 Python 在内的十二种编程语言上的基准测试。Multi-LCB 将 LCB 数据集中的 Python 任务转换为其他语言的等价任务,同时保留 LCB 的污染控制与评估协议。由于它与原始 LCB 格式完全兼容,Multi-LCB 将自动跟踪未来的 LCB 更新,从而能够系统评估跨语言代码生成能力,并要求模型在 Python 之外也保持良好性能。我们在 Multi-LCB 上评估了 24 个指令模型和推理模型,发现了 Python 过拟合、语言特定污染以及多语言性能上的显著差异。我们的结果将 Multi-LCB 确立为用于多编程语言代码评估的严格新基准,直接解决了 LCB 的主要局限性,并揭示了当前 LLM 能力的关键缺口。

查看 arXiv 页面 (https://arxiv.org/abs/2606.20517)查看 PDF (https://arxiv.org/pdf/2606.20517)项目页面 (https://multi-lcb.github.io/)GitHub22 (https://github.com/Multi-LCB/Multi-LCB)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20517)

在您的代理中获取此论文:

hf papers read 2606.20517

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

引用该论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章