stress-testing

#stress-testing

在信息缺失情况下评估医疗人工智能：同源评审者与人工评分者改变表观安全性

arXiv cs.AI ↗ · 2026-07-22 缓存

本文将信息缺失压力测试推广至开放式医疗对话，发现大语言模型评审者的选择会显著改变表观安全性，且LLM评审者比临床医生更为宽松。

0 人收藏 0 人点赞

#stress-testing

X AI KOLs Timeline ↗ · 2026-06-30 缓存

本文介绍如何利用Claude和CIA红队技术，在付诸实践前对糟糕的想法进行压力测试并扼杀它们，从而节省时间、避免失败。

0 人收藏 0 人点赞

#stress-testing

TechCrunch AI ↗ · 2026-06-25 缓存

Patronus AI完成5000万美元B轮融资，用于构建模拟数字世界以对AI智能体进行压力测试，帮助确保它们在现实场景中可靠运行。

0 人收藏 0 人点赞

#stress-testing

Reddit r/AI_Agents ↗ · 2026-06-16

作者构建了一个基于GPT-5.5的自主Codex代理循环运行器，用于测试，目前处于公开测试阶段，提供50次免费运行机会。

0 人收藏 0 人点赞

#stress-testing

arXiv cs.AI ↗ · 2026-06-09 缓存

本文介绍了AI-MASLD，一个用于医学大语言模型的压力审计框架，揭示了基准准确率如何掩盖严重的安全故障，并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

0 人收藏 0 人点赞

#stress-testing

arXiv cs.AI ↗ · 2026-05-27 缓存

MemFail是一个诊断基准，通过形式化总结、存储和检索操作，并用对抗性设计的数据集进行评估，来隔离LLM记忆系统的故障模式。

0 人收藏 0 人点赞

#stress-testing

X AI KOLs Following ↗ · 2026-05-25 缓存

解释如何使用Claude执行事前验尸（premortem），这是丹尼尔·卡尼曼提出的一种技术，通过想象计划已经失败来对其进行压力测试。

0 人收藏 0 人点赞

#stress-testing

arXiv cs.CL ↗ · 2026-05-18 缓存

DetectRL-X是一个全面的多语言基准测试，用于评估跨8种语言和6个领域的LLM生成文本检测器，包括针对AI辅助写作操作和扰动的压力测试。它揭示了当前检测器在多语言场景中的优势与局限性。

0 人收藏 0 人点赞