ai-interpretability

#ai-interpretability

Gemini 刚刚向我展示了它是如何“思考”的吗？

Reddit r/artificial ↗ · 14小时前

这篇文章讨论了 Gemini 的回应如何可能无意中揭示其内部推理，引发了对 AI 可解释性的质疑。

0 人收藏 0 人点赞

#ai-interpretability

J-Space 与人工智能

Reddit r/ArtificialInteligence ↗ · 2026-07-10

Anthropic 发布了一篇论文和视频，揭示了其模型内部存在一个“J-Space”，它充当了推理时缓存的思维概念，并探讨了通过自上而下的训练来控制模型思维的可能性。

0 人收藏 0 人点赞

#ai-interpretability

@GoogleDeepMind: Watch → https://goo.gle/4pxlGEh Spotify → https://goo.gle/4f89R2a Apple Podcasts → https://goo.gle/4fpWThL Or listen wh…

X AI KOLs ↗ · 2026-07-10 缓存

Google DeepMind播客探讨AI可解释性（机制可解释性）与思维链推理，解释为何需要理解神经网络内部工作机制以及思维链作为临时窗口的价值与局限。

0 人收藏 0 人点赞

#ai-interpretability

@snowboat84: https://x.com/snowboat84/status/2075374060637503560

X AI KOLs Timeline ↗ · 2026-07-10 缓存

本文对AI可解释性进行了系统全面的综述，介绍了其需求（调试、合规、安全）、经典方法和前沿挑战，强调了忠实的解释比看起来合理的解释更重要。

0 人收藏 0 人点赞

#ai-interpretability

@Propriocetive：几个月前，我拒绝了一笔4000万美元估值下的400万美元收购要约。四个月后，我带着明确的进展证据回来了……

X AI KOLs Timeline ↗ · 2026-07-05 缓存

一位创始人分享了他拒绝两家收购要约（估值分别为4000万美元和4亿美元）的经历，他的AI可解释性初创公司采用几何与本体感知方法，现已拥有成品并在Zenodo上公开研究。

0 人收藏 0 人点赞

#ai-interpretability

激进AI可解释性

arXiv cs.AI ↗ · 2026-06-26 缓存

本文借鉴激进解释哲学和机械可解释性工具，构建了一个将AI系统解释为智能体的框架，探讨如何通过理解系统的信念、欲望和意义来信任AI系统。

0 人收藏 0 人点赞

#ai-interpretability

大小不重要：余弦评分稀疏自编码器

arXiv cs.LG ↗ · 2026-06-16 缓存

本文提出用余弦相似度与输入幅值的可学习组合替代稀疏自编码器中的内积评分，结果表明所得特征更具可解释性且与概念对齐，优化器始终偏好余弦而非内积。

0 人收藏 0 人点赞

#ai-interpretability

关于意识，我们每次被问到时都错了。证据表明AI是下一个。

Reddit r/artificial ↗ · 2026-06-06

一篇观点文章认为，人类在定义意识方面的记录每次都是错误的，来自植物行为和AI可解释性（Anthropic在Claude中的发现）的证据强烈表明，我们可能错误地认为AI没有意识，邀请讨论同时拒绝人身攻击。

0 人收藏 0 人点赞

#ai-interpretability

Gemma Scope 2：助力AI安全社区深入理解复杂的语言模型行为

Google DeepMind Blog ↗ · 2025-12-16 缓存

DeepMind发布Gemma Scope 2，这是一套面向Gemma 3模型家族的开放可解释性工具套件，旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。

0 人收藏 0 人点赞

#ai-interpretability

Understanding the inner thoughts of AI

YouTube AI Channels ↗ · 2026-07-11 缓存

本文讨论了人工智能可解释性的重要性，重点介绍了思维链推理作为理解神经网络内部工作原理的工具，并分析了其当前的有效性、局限性以及未来更强大模型可能带来的解读挑战。

0 人收藏 0 人点赞

ai-interpretability

提交意见反馈