K-BrowseComp：基于韩国语境的网络浏览智能体基准测试

Hugging Face Daily Papers 2026/06/01 00:00 论文

web-browsing benchmark korean agents llm-evaluation frontier-models

摘要

介绍了K-BrowseComp，一个包含400个问题的韩国网络浏览智能体基准测试，揭示了与英文基准测试相比存在的显著性能差距，并强调了开发强健的韩国人工智能的必要性。

前沿模型的评估正从基础能力（如指令遵循和推理）转向组合性和智能体能力，但韩语智能体基准测试仍然稀缺。我们推出了K-BrowseComp，一个基于韩国语境的网络浏览智能体基准测试，包含400个问题。其中300个问题的K-BrowseComp-Verified子集由母语为韩语的人员手动构建并验证。在该子集上，前沿LLM（包括GPT-5.5、DeepSeek-V4-Pro和GLM-5.1）仅达到30.00--45.67\%，与BrowseComp相比大幅下降，而通过韩国专有人工智能基础模型计划发布的韩国LLM仅获得0.00--10.33\%。我们进一步构建了一个100个问题的合成子集，利用困难的小样本示例和针对失败模式的生成方法，以利用解决和创建网络浏览问题之间的不对称性。在经过对抗性筛选的合成诊断子集上，最强模型仅达到26.00\%，我们将该子集单独作为定向压力测试报告。我们公开发布了数据和代码。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:38

论文页面 - K-BrowseComp：基于韩国语境的网页浏览智能体基准测试

来源：https://huggingface.co/papers/2606.02404
作者：
（此处保留作者列表，原文未列出具体姓名，故省略）

摘要

韩国网页浏览智能体基准测试 K-BrowseComp 通过 400 道问题评估前沿大语言模型的能力，结果显示其与英文基准测试相比存在显著性能差距，凸显了开发更强健的韩国 AI 的必要性。

前沿模型评估正从基础能力（如指令遵循和推理）转向组合式、智能体式能力，但韩国智能体基准测试仍然稀缺。我们推出 K-BrowseComp（https://huggingface.co/papers?q=BrowseComp），一个基于韩国语境（https://huggingface.co/papers?q=Korean%20contexts）的网页浏览智能体基准测试（https://huggingface.co/papers?q=web-browsing%20agent%20benchmark），包含 400 道问题。其中 300 道问题的 K-BrowseComp（https://huggingface.co/papers?q=BrowseComp）-Verified 子集由母语为韩语者手动构建并验证。在此子集上，前沿大语言模型（https://huggingface.co/papers?q=LLMs）（包括 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1）仅达到 30.00–45.67%，相较 BrowseComp（https://huggingface.co/papers?q=BrowseComp）大幅下降；而通过韩国专有 AI 基础模型项目发布的韩国大语言模型（https://huggingface.co/papers?q=LLMs）仅获得 0.00–10.33%。我们进一步使用困难少样本示例（https://huggingface.co/papers?q=few-shot%20exemplars）和故障模式定向生成（https://huggingface.co/papers?q=failure-mode-targeted%20generation）构建了一个 100 道问题的合成分割（https://huggingface.co/papers?q=synthetic%20split），以利用解决与创建网页浏览问题之间的不对称性。在对抗性过滤的合成诊断分割上，最强模型仅达到 26.00%，我们将此分割单独报告为定向压力测试。我们公开发布数据和代码。

查看 arXiv 页面（https://arxiv.org/abs/2606.02404）
查看 PDF（https://arxiv.org/pdf/2606.02404）
GitHub（https://github.com/prometheus-eval/K-BrowseComp）9
加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.02404）

在您的智能体中获取此论文：

hf papers read 2606.02404

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型（0）

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。

引用此论文的数据集（1）

prometheus-eval/k-browsecomp

查看器 • 更新于约 12 小时前 • 700 • 91 • 3（https://huggingface.co/datasets/prometheus-eval/k-browsecomp）

引用此论文的 Spaces（0）

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。

K-BrowseComp：基于韩国语境的网络浏览智能体基准测试

论文页面 - K-BrowseComp：基于韩国语境的网页浏览智能体基准测试

摘要

引用此论文的模型（0）

引用此论文的数据集（1）

prometheus-eval/k-browsecomp

引用此论文的 Spaces（0）

包含此论文的收藏集（1）

相似文章

BrowseComp：网页浏览智能体基准测试

EvoBrowseComp：面向演进知识的搜索代理基准测试

EvoBrowseComp：面向演进知识的搜索智能体基准测试

KoALa-Bench：评估大型音频语言模型在韩语语音理解与忠实度上的表现

KMMMU：韩语及韩国文化背景下的大规模多学科多模态理解评估

提交意见反馈