Multi-LCB:将LiveCodeBench扩展到多种编程语言
摘要
Multi-LCB 将 LiveCodeBench 基准扩展到十二种编程语言,以评估大型语言模型,同时保留污染控制机制,揭示了 Python 过拟合和语言特定的污染问题。
查看缓存全文
缓存时间: 2026/06/20 14:27
论文页面 - Multi-LCB: 将LiveCodeBench扩展到多种编程语言
来源: https://huggingface.co/papers/2606.20517
摘要
Multi-LCB 弥补了 LiveCodeBench 的局限性,提供了一个多语言基准,用于评估 LLM 在十二种编程语言上的表现,同时保留了污染控制和评估协议。
LiveCodeBench (LCB) 最近已成为评估大型语言模型 (LLM) 在代码生成任务上的广泛采用的基准测试。通过整理竞赛编程题目、不断向题目集添加新题并按发布日期进行过滤,LCB 提供了污染感知的评估,并对编码能力提供了全面视角。然而,LCB 仍然局限于 Python,留下了一个悬而未决的问题:LLM 能否泛化到现实软件工程中所需的各种编程语言?我们引入了 Multi-LCB,这是一个用于评估 LLM 在包括 Python 在内的十二种编程语言上的基准测试。Multi-LCB 将 LCB 数据集中的 Python 任务转换为其他语言的等价任务,同时保留 LCB 的污染控制与评估协议。由于它与原始 LCB 格式完全兼容,Multi-LCB 将自动跟踪未来的 LCB 更新,从而能够系统评估跨语言代码生成能力,并要求模型在 Python 之外也保持良好性能。我们在 Multi-LCB 上评估了 24 个指令模型和推理模型,发现了 Python 过拟合、语言特定污染以及多语言性能上的显著差异。我们的结果将 Multi-LCB 确立为用于多编程语言代码评估的严格新基准,直接解决了 LCB 的主要局限性,并揭示了当前 LLM 能力的关键缺口。
查看 arXiv 页面 (https://arxiv.org/abs/2606.20517)查看 PDF (https://arxiv.org/pdf/2606.20517)项目页面 (https://multi-lcb.github.io/)GitHub22 (https://github.com/Multi-LCB/Multi-LCB)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20517)
在您的代理中获取此论文:
hf papers read 2606.20517
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。
引用该论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.20517 以从此页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
开源LLM基准测试每4小时运行147个编码任务,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测。好奇大家对这种方法的看法。
一个包含147个编码任务的开源LLM基准测试每4小时运行一次,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测,引发了对其方法的讨论。
XL-SafetyBench:一个基于国家的跨文化LLM安全与文化敏感性基准
XL-SafetyBench是一个包含5500个测试用例的基准,涵盖10个国家-语言对,用于评估LLM安全性和文化敏感性,区分越狱鲁棒性与文化意识。
XLGoBench: 通过算法任务检测跨语言技能差距
XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。
mmPISA-bench:LLMs 在43种语言中的推理能力是否同样出色?
介绍 mmPISA-bench,一个源自PISA的紧凑型多语言推理基准,评估了专有LLMs在43种语言上的表现,发现它们能有效推理但存在一些性能差异,且机器翻译的问题不会降低准确率。
LingxiDiagBench:一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架
介绍了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明:二分类任务上准确率高(最高达92.3%),但多分类鉴别诊断性能较差(抑郁-焦虑共病识别43.0%,12类鉴别诊断28.5%),揭示了对话质量与诊断准确性之间的脱节。