trustworthy-ai

#trustworthy-ai

Theoria: 非正式推理状态下的重写可接受性验证

arXiv cs.AI ↗ · 20小时前缓存

Theoria 是一种验证架构，将 AI 解决方案重写为可审计的状态转换，在 HLE 问题上实现了高精度，并能检测隐藏前提、虚假引用等细微错误。

0 人收藏 0 人点赞

#trustworthy-ai

可信AI的去中心化评估（DATA）

Reddit r/artificial ↗ · 6天前

可信AI的去中心化评估（DATA）是一种伦理评估工具，允许用户和社区基于领先的伦理框架（如联合国教科文组织和欧盟指南）客观地审计AI公司。

0 人收藏 0 人点赞

#trustworthy-ai

面向心理健康交互的大语言模型中框架敏感行为不稳定性审计

arXiv cs.CL ↗ · 6天前缓存

本文研究了上下文框架如何影响大语言模型在心理健康交互中的响应，发现了系统性的行为变异，并证明了内部表示在Transformer各层中编码了框架信息。

0 人收藏 0 人点赞

#trustworthy-ai

从稀疏特征到可信代理：认证基于SAE的可解释性

arXiv cs.LG ↗ · 2026-06-18 缓存

本文提出了一种事后认证框架，用于基于稀疏自编码器（SAE）的可解释性，通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证，显示出非空洞的界，并揭示了深度相关的行为。

0 人收藏 0 人点赞

#trustworthy-ai

Upsolve AI

Product Hunt ↗ · 2026-06-17

Upsolve AI 是一个用于构建可靠、受治理且值得信赖的数据代理的工具。

0 人收藏 0 人点赞

#trustworthy-ai

LegalHalluLens：类型化幻觉审计与校准的多智能体辩论，实现可信赖的法律AI

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了LegalHalluLens，一个用于审计法律AI中幻觉的框架，提供类型化幻觉档案和风险方向指数，以提升可信赖部署。

0 人收藏 0 人点赞

#trustworthy-ai

用于法律AI的神经符号AI-TRISM：值得信赖、可靠、可解释、安全的模型

arXiv cs.AI ↗ · 2026-06-16 缓存

本立场论文提出了TRISM框架，该框架将神经符号AI与LLMs和RAG相结合，以解决法律AI中的幻觉和可解释性问题，引入了RASOR RAG用于生成可解释的理由，并形式化了符号化法律知识库。

0 人收藏 0 人点赞

#trustworthy-ai

遏制缺口：已部署的自主AI框架如何未能满足面向公众的安全要求

arXiv cs.AI ↗ · 2026-06-12 缓存

本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现，发现它们均未原生符合遏制原则，并展示了内存投毒如何导致持续性失败；文中还引入了轻量级机制以消除此类攻击。

0 人收藏 0 人点赞

#trustworthy-ai

谷歌DeepMind担忧：当数百万AI代理开始交互时会发生什么？

MIT Technology Review ↗ · 2026-06-11 缓存

谷歌DeepMind与Schmidt Sciences、ARIA、Cooperative AI基金会及Google.org联手，启动了1000万美元的资助计划，旨在研究多代理AI系统的安全性，以防范AI代理广泛部署后可能引发的诈骗、提示注入和网络攻击等风险。

0 人收藏 0 人点赞

#trustworthy-ai

迈向可信AI：连续数据摘要的多目标对抗攻击与鲁棒防御

arXiv cs.AI ↗ · 2026-06-11 缓存

本文研究了在相似性级别扰动下，通过DR-submodular优化对连续数据摘要的对抗攻击，提出将多目标攻击生成视为最小-最大问题，将鲁棒防御视为正则化最大-最小问题，并提供了理论保证和实验验证。

0 人收藏 0 人点赞

#trustworthy-ai

支持欧洲确保可信AI生态系统的工作

OpenAI Blog ↗ · 2026-06-11 缓存

OpenAI宣布支持欧盟委员会关于AI生成内容透明度的实践准则，进一步强化其对AI治理和内容溯源的承诺。

0 人收藏 0 人点赞

#trustworthy-ai

缓解流形偏离：面向可信MLLM解码的不确定性感知子空间矫正

arXiv cs.LG ↗ · 2026-06-10 缓存

本文介绍了MGAP，一种无需训练的解码方法，通过自适应地仅抑制语言先验中的有害部分，同时保留模型的语义流形，从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。

0 人收藏 0 人点赞

#trustworthy-ai

大语言模型的序贯统计推断：表征、有效性与监控

arXiv cs.LG ↗ · 2026-06-09 缓存

本文主张采用序贯推断框架来增强LLM的可信度，通过将交互建模为依赖随机过程，确保在重复使用下的有效性，并实现行为变化的在线监控。

0 人收藏 0 人点赞

#trustworthy-ai

新版Claude在测试中对“自信地报告错误答案”的症状降为0%。这里有一个提示词可以充分利用这一改进，适用于任何重要事项。

Reddit r/ArtificialInteligence ↗ · 2026-05-31

Anthropic的Claude Opus 4.8更新大幅减少了自信但错误的答案，在报告有缺陷的结果上得分为0%，并提供了一个提示词来利用这一改进进行关键的自我批判。

0 人收藏 0 人点赞

#trustworthy-ai

值得信赖的第三方评估共享手册

OpenAI Blog ↗ · 2026-05-29 缓存

OpenAI分享了关于设计值得信赖的前沿模型第三方评估的经验教训和推荐方法，强调了评估框架和有效性检查的关键作用。

0 人收藏 0 人点赞

#trustworthy-ai

哪些变化重要？通过相关性敏感评估和求解器推理实现可信赖的法律AI

arXiv cs.AI ↗ · 2026-05-27 缓存

本文介绍了一套用于法律AI的相关性敏感评估套件，表明LLM对法律无关的扰动过于敏感，并提出LexGuard，一个基于形式推理的对抗性多代理框架，以提高法律推理的可靠性。

0 人收藏 0 人点赞

#trustworthy-ai

忠实还是虚构？LLM评审中合理化偏见的因果框架

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一个因果框架，用于量化LLM评审中的合理化偏见，即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议，展示了改进的线索不变性。

0 人收藏 0 人点赞

#trustworthy-ai

本体知识块：可执行合规性与基于配置文件的验证用于可信AI系统

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了本体知识块（OKBs），这是一种可编程治理基础设施，将监管义务编译为机器可检查的约束条件，用于可信AI系统，并在HPC资源分配中进行了原型评估。

0 人收藏 0 人点赞

#trustworthy-ai

Deterministic Horizon：不可行性结果作为可信AI系统的设计规范

arXiv cs.AI ↗ · 2026-05-25 缓存

本文提出，不可行性结果可以作为构建可信AI系统的设计规范，并提出了一个确保可靠性和安全性的理论框架。

0 人收藏 0 人点赞

#trustworthy-ai

我们为何构建

Reddit r/artificial ↗ · 2026-05-24

一篇观点文章，提倡构建能够从领域专家处提供透明、可验证知识的AI系统，从而实现基于发现的学习，并抵制集中式宣传。

0 人收藏 0 人点赞

trustworthy-ai

提交意见反馈