K-BrowseComp:基于韩国语境的网络浏览智能体基准测试

Hugging Face Daily Papers 论文

摘要

介绍了K-BrowseComp,一个包含400个问题的韩国网络浏览智能体基准测试,揭示了与英文基准测试相比存在的显著性能差距,并强调了开发强健的韩国人工智能的必要性。

前沿模型的评估正从基础能力(如指令遵循和推理)转向组合性和智能体能力,但韩语智能体基准测试仍然稀缺。我们推出了K-BrowseComp,一个基于韩国语境的网络浏览智能体基准测试,包含400个问题。其中300个问题的K-BrowseComp-Verified子集由母语为韩语的人员手动构建并验证。在该子集上,前沿LLM(包括GPT-5.5、DeepSeek-V4-Pro和GLM-5.1)仅达到30.00--45.67\%,与BrowseComp相比大幅下降,而通过韩国专有人工智能基础模型计划发布的韩国LLM仅获得0.00--10.33\%。我们进一步构建了一个100个问题的合成子集,利用困难的小样本示例和针对失败模式的生成方法,以利用解决和创建网络浏览问题之间的不对称性。在经过对抗性筛选的合成诊断子集上,最强模型仅达到26.00\%,我们将该子集单独作为定向压力测试报告。我们公开发布了数据和代码。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:38

论文页面 - K-BrowseComp:基于韩国语境的网页浏览智能体基准测试

来源:https://huggingface.co/papers/2606.02404
作者:
(此处保留作者列表,原文未列出具体姓名,故省略)

摘要

韩国网页浏览智能体基准测试 K-BrowseComp 通过 400 道问题评估前沿大语言模型的能力,结果显示其与英文基准测试相比存在显著性能差距,凸显了开发更强健的韩国 AI 的必要性。

前沿模型评估正从基础能力(如指令遵循和推理)转向组合式、智能体式能力,但韩国智能体基准测试仍然稀缺。我们推出 K-BrowseComp(https://huggingface.co/papers?q=BrowseComp),一个基于韩国语境(https://huggingface.co/papers?q=Korean%20contexts)的网页浏览智能体基准测试(https://huggingface.co/papers?q=web-browsing%20agent%20benchmark),包含 400 道问题。其中 300 道问题的 K-BrowseComp(https://huggingface.co/papers?q=BrowseComp)-Verified 子集由母语为韩语者手动构建并验证。在此子集上,前沿大语言模型(https://huggingface.co/papers?q=LLMs)(包括 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1)仅达到 30.00–45.67%,相较 BrowseComp(https://huggingface.co/papers?q=BrowseComp)大幅下降;而通过韩国专有 AI 基础模型项目发布的韩国大语言模型(https://huggingface.co/papers?q=LLMs)仅获得 0.00–10.33%。我们进一步使用困难少样本示例(https://huggingface.co/papers?q=few-shot%20exemplars)和故障模式定向生成(https://huggingface.co/papers?q=failure-mode-targeted%20generation)构建了一个 100 道问题的合成分割(https://huggingface.co/papers?q=synthetic%20split),以利用解决与创建网页浏览问题之间的不对称性。在对抗性过滤的合成诊断分割上,最强模型仅达到 26.00%,我们将此分割单独报告为定向压力测试。我们公开发布数据和代码。

查看 arXiv 页面(https://arxiv.org/abs/2606.02404)
查看 PDF(https://arxiv.org/pdf/2606.02404)
GitHub(https://github.com/prometheus-eval/K-BrowseComp)9
加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02404)

在您的智能体中获取此论文:

hf papers read 2606.02404

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。

引用此论文的数据集(1)

prometheus-eval/k-browsecomp

查看器 • 更新于约 12 小时前 • 700 • 91 • 3(https://huggingface.co/datasets/prometheus-eval/k-browsecomp)

引用此论文的 Spaces(0)

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。

包含此论文的收藏集(1)

相似文章

BrowseComp:网页浏览智能体基准测试

OpenAI Blog

OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。