标签
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
MemFail是一个诊断基准,通过形式化总结、存储和检索操作,并用对抗性设计的数据集进行评估,来隔离LLM记忆系统的故障模式。
解释如何使用Claude执行事前验尸(premortem),这是丹尼尔·卡尼曼提出的一种技术,通过想象计划已经失败来对其进行压力测试。
DetectRL-X是一个全面的多语言基准测试,用于评估跨8种语言和6个领域的LLM生成文本检测器,包括针对AI辅助写作操作和扰动的压力测试。它揭示了当前检测器在多语言场景中的优势与局限性。