标签
本文介绍了RealityTest,这是一个多模态、多语言基准测试,用于评估AI系统在被用户探询时是否会披露其身份。该基准基于来自49个国家的真实人类查询数据。研究发现,只有31%的人会直接询问身份,并且人类提出的问题比合成问题更加多样化。结果表明,问题的措辞和对话背景对披露行为的影响比具体模型更大。
一位研究人员在PewDiePie的Odysseus Chat中发现了一个一键远程代码执行漏洞,并正在提交PR以修复它。
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
一份关于2026年5月发现的三个严重Linux本地权限提升漏洞的报告,强调了披露模型的崩溃及其对生产环境的影响。
本文探讨了 AI 智能体在推荐产品或服务时涉及的设计与伦理问题,包括是否应披露商业合作关系、排名依据以及联盟营销关系,并与传统在线广告的透明度规范进行了类比分析。
AI正在颠覆传统的漏洞披露文化(协调披露 vs 漏洞就是漏洞),通过加速安全缺陷的检测和利用,使长期禁运效果降低,并迫使需要更快、AI辅助的响应。
安全研究员 Lachlan 于 2025 年 11 月 30 日发现并报告了一个名为“React2Shell”的严重远程代码执行漏洞,该漏洞存在于 React 服务器组件协议中,并向 Meta 进行了报告。Meta 于 12 月 3 日发布了修复程序和安全公告(CVE-2025-55182),敦促开发者立即更新,因为该漏洞影响了数百万使用 React/Next.js 构建的网站。