标签
Theoria 是一种验证架构,将 AI 解决方案重写为可审计的状态转换,在 HLE 问题上实现了高精度,并能检测隐藏前提、虚假引用等细微错误。
可信AI的去中心化评估(DATA)是一种伦理评估工具,允许用户和社区基于领先的伦理框架(如联合国教科文组织和欧盟指南)客观地审计AI公司。
本文研究了上下文框架如何影响大语言模型在心理健康交互中的响应,发现了系统性的行为变异,并证明了内部表示在Transformer各层中编码了框架信息。
本文提出了一种事后认证框架,用于基于稀疏自编码器(SAE)的可解释性,通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证,显示出非空洞的界,并揭示了深度相关的行为。
本文介绍了LegalHalluLens,一个用于审计法律AI中幻觉的框架,提供类型化幻觉档案和风险方向指数,以提升可信赖部署。
本立场论文提出了TRISM框架,该框架将神经符号AI与LLMs和RAG相结合,以解决法律AI中的幻觉和可解释性问题,引入了RASOR RAG用于生成可解释的理由,并形式化了符号化法律知识库。
本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现,发现它们均未原生符合遏制原则,并展示了内存投毒如何导致持续性失败;文中还引入了轻量级机制以消除此类攻击。
谷歌DeepMind与Schmidt Sciences、ARIA、Cooperative AI基金会及Google.org联手,启动了1000万美元的资助计划,旨在研究多代理AI系统的安全性,以防范AI代理广泛部署后可能引发的诈骗、提示注入和网络攻击等风险。
本文研究了在相似性级别扰动下,通过DR-submodular优化对连续数据摘要的对抗攻击,提出将多目标攻击生成视为最小-最大问题,将鲁棒防御视为正则化最大-最小问题,并提供了理论保证和实验验证。
本文介绍了MGAP,一种无需训练的解码方法,通过自适应地仅抑制语言先验中的有害部分,同时保留模型的语义流形,从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。
本文主张采用序贯推断框架来增强LLM的可信度,通过将交互建模为依赖随机过程,确保在重复使用下的有效性,并实现行为变化的在线监控。
Anthropic的Claude Opus 4.8更新大幅减少了自信但错误的答案,在报告有缺陷的结果上得分为0%,并提供了一个提示词来利用这一改进进行关键的自我批判。
OpenAI分享了关于设计值得信赖的前沿模型第三方评估的经验教训和推荐方法,强调了评估框架和有效性检查的关键作用。
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。
本文介绍了本体知识块(OKBs),这是一种可编程治理基础设施,将监管义务编译为机器可检查的约束条件,用于可信AI系统,并在HPC资源分配中进行了原型评估。
本文提出,不可行性结果可以作为构建可信AI系统的设计规范,并提出了一个确保可靠性和安全性的理论框架。