K-BrowseComp:基于韩国语境的网络浏览智能体基准测试
摘要
介绍了K-BrowseComp,一个包含400个问题的韩国网络浏览智能体基准测试,揭示了与英文基准测试相比存在的显著性能差距,并强调了开发强健的韩国人工智能的必要性。
查看缓存全文
缓存时间: 2026/06/02 15:38
论文页面 - K-BrowseComp:基于韩国语境的网页浏览智能体基准测试
来源:https://huggingface.co/papers/2606.02404
作者:
(此处保留作者列表,原文未列出具体姓名,故省略)
摘要
韩国网页浏览智能体基准测试 K-BrowseComp 通过 400 道问题评估前沿大语言模型的能力,结果显示其与英文基准测试相比存在显著性能差距,凸显了开发更强健的韩国 AI 的必要性。
前沿模型评估正从基础能力(如指令遵循和推理)转向组合式、智能体式能力,但韩国智能体基准测试仍然稀缺。我们推出 K-BrowseComp(https://huggingface.co/papers?q=BrowseComp),一个基于韩国语境(https://huggingface.co/papers?q=Korean%20contexts)的网页浏览智能体基准测试(https://huggingface.co/papers?q=web-browsing%20agent%20benchmark),包含 400 道问题。其中 300 道问题的 K-BrowseComp(https://huggingface.co/papers?q=BrowseComp)-Verified 子集由母语为韩语者手动构建并验证。在此子集上,前沿大语言模型(https://huggingface.co/papers?q=LLMs)(包括 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1)仅达到 30.00–45.67%,相较 BrowseComp(https://huggingface.co/papers?q=BrowseComp)大幅下降;而通过韩国专有 AI 基础模型项目发布的韩国大语言模型(https://huggingface.co/papers?q=LLMs)仅获得 0.00–10.33%。我们进一步使用困难少样本示例(https://huggingface.co/papers?q=few-shot%20exemplars)和故障模式定向生成(https://huggingface.co/papers?q=failure-mode-targeted%20generation)构建了一个 100 道问题的合成分割(https://huggingface.co/papers?q=synthetic%20split),以利用解决与创建网页浏览问题之间的不对称性。在对抗性过滤的合成诊断分割上,最强模型仅达到 26.00%,我们将此分割单独报告为定向压力测试。我们公开发布数据和代码。
查看 arXiv 页面(https://arxiv.org/abs/2606.02404)
查看 PDF(https://arxiv.org/pdf/2606.02404)
GitHub(https://github.com/prometheus-eval/K-BrowseComp)9
加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02404)
在您的智能体中获取此论文:
hf papers read 2606.02404
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。
引用此论文的数据集(1)
prometheus-eval/k-browsecomp
查看器 • 更新于约 12 小时前 • 700 • 91 • 3(https://huggingface.co/datasets/prometheus-eval/k-browsecomp)
引用此论文的 Spaces(0)
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.02404 以建立链接。
包含此论文的收藏集(1)
相似文章
BrowseComp:网页浏览智能体基准测试
OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。
EvoBrowseComp:面向演进知识的搜索代理基准测试
本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。
EvoBrowseComp:面向演进知识的搜索智能体基准测试
EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。
KMMMU:韩语及韩国文化背景下的大规模多学科多模态理解评估
KMMMU 是一个用于评估韩语多模态理解的本地化韩文基准,包含 3,466 道题目,涵盖九个学科和视觉模态类别,通过测试韩国特定文化和制度背景下的性能,填补了以英文为中心的基准的空白。