stress-testing

标签

Cards List
#stress-testing

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

arXiv cs.AI · 3天前 缓存

本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

0 人收藏 0 人点赞
#stress-testing

MemFail:对LLM记忆系统故障模式的压力测试

arXiv cs.AI · 2026-05-27 缓存

MemFail是一个诊断基准,通过形式化总结、存储和检索操作,并用对抗性设计的数据集进行评估,来隔离LLM记忆系统的故障模式。

0 人收藏 0 人点赞
#stress-testing

@itsolelehmann: POV: Claude 穿越到6个月后,精确告诉你下一步为何失败。这叫做“事前验尸”。…

X AI KOLs Following · 2026-05-25 缓存

解释如何使用Claude执行事前验尸(premortem),这是丹尼尔·卡尼曼提出的一种技术,通过想象计划已经失败来对其进行压力测试。

0 人收藏 0 人点赞
#stress-testing

DetectRL-X:面向可靠的多语言及真实世界的LLM生成文本检测

arXiv cs.CL · 2026-05-18 缓存

DetectRL-X是一个全面的多语言基准测试,用于评估跨8种语言和6个领域的LLM生成文本检测器,包括针对AI辅助写作操作和扰动的压力测试。它揭示了当前检测器在多语言场景中的优势与局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈