hierarchical-benchmark

#hierarchical-benchmark

SafePyramid：面向上下文策略护栏的分层基准

Hugging Face Daily Papers ↗ · 2026-06-29 缓存

SafePyramid 是一个分层基准，包含跨10个领域的1,000轮多轮对话和3,000条策略，用于评估护栏系统通过上下文策略规范识别安全违规的能力。对10个前沿大语言模型的测试显示，即使是在最简单的层级上，GPT-5.5也只能正确识别所有违规策略的54%，突显了可靠上下文策略护栏面临的挑战。

0 人收藏 0 人点赞

#hierarchical-benchmark

arXiv cs.AI ↗ · 2026-06-02 缓存

本文介绍了一个用于推理评估的多轮交互框架，其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准，展示了区分能力并揭示了推理差异。

0 人收藏 0 人点赞