论文

@rohanpaul_ai: LLM 常常无法判断攻击是否导致它们说出了不安全的内容。询问一个 LLM 它自己之前的回答是否……

X AI KOLs Timeline ↗ · 11分钟前缓存

本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况，发现模型通常无法区分被篡改的输出和故意的输出，其有限的识别能力源自正常的拒绝行为，而非真正的自我意识。

0 人收藏 0 人点赞

@yoheinakajima: ActiveGraph: 一个月进展: 论文#1: 日志即代理 3个LongMemEval实验论文#2: 机制、自我改进循环…

X AI KOLs Following ↗ · 1小时前缓存

ActiveGraph宣布了两篇关于代理记忆（LongMemEval）和自我改进机制的新论文，并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。

0 人收藏 0 人点赞

我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence ↗ · 3小时前

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用，该作用创建了一个充当稳定参考点的‘Nothing Dump’标记；移除这些权重会严重损害模型性能。

0 人收藏 0 人点赞

OpenMythos 基准测试

Reddit r/LocalLLaMA ↗ · 5小时前

OpenMythos 推出了一个新的开源基准测试，用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞

代码审查的终结：编码代理取代人工审查

Hacker News Top ↗ · 5小时前缓存

本文认为，基于LLM的编码代理已达到能力临界点，使人工代码审查变得多余，并提议用代理驱动的验证取代人工审查，以降低成本和延迟。

0 人收藏 0 人点赞

确定性就是你所需

Reddit r/artificial ↗ · 6小时前

本文介绍了一种利用确定性在Transformer模型中的新方法，基于'Attention Is All You Need'的范式。

0 人收藏 0 人点赞

@_akhaliq: 论文:

X AI KOLs Following ↗ · 6小时前缓存

本技术报告介绍了Ling-2.6和Ring-2.6，这是一个万亿参数模型系列，旨在实现高效和即时的智能体智能，具有架构升级（如混合线性注意力）和专门的训练方法（包括KPop强化学习）。所有检查点均开源。

0 人收藏 0 人点赞

受大脑启发的人工智能架构可实现更快计算且功耗大幅降低

Reddit r/singularity ↗ · 6小时前

一种受大脑启发的人工智能架构有望实现更快计算，同时功耗大幅降低，可能推动节能型AI硬件的发展。

0 人收藏 0 人点赞

LLMs中的潜在对齐漏洞：来自Gemma-3-12B的行为与隐藏状态证据——指令调优LLMs中预令牌隐藏状态偏移作为对齐策略遍历向量

Reddit r/AI_Agents ↗ · 6小时前

本文研究指令调优LLMs（特别是Gemma-3-12B）中的一个对齐漏洞，通过展示预令牌隐藏状态偏移可以作为对齐策略遍历向量，从而可能绕过安全措施。

0 人收藏 0 人点赞

F3

Hacker News Top ↗ · 7小时前缓存

F3 是一种下一代开源数据文件格式，通过嵌入 WebAssembly 解码器实现互操作性和可扩展性，解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。

0 人收藏 0 人点赞

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA ↗ · 9小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞

Agent Profiles 让 AI 运行更安全、更专注、可复用

Reddit r/artificial ↗ · 9小时前

Agent Profiles 是一种通过定义结构化配置文件来增强 AI 安全性、专注性和可复用性的新方法。

0 人收藏 0 人点赞

Lift4D：协调单视角3D估计用于野外4D重建

Hacker News Top ↗ · 9小时前缓存

Lift4D是一个测试时优化框架，能够从单目野外视频中重建动态物体的完整4D几何、外观和形变，在具有遮挡和非刚性运动的挑战性序列上优于先前方法。

0 人收藏 0 人点赞

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069424192274252094

X AI KOLs Timeline ↗ · 10小时前缓存

微软的NextLat引入了一种训练目标，它奖励信念状态表示，而不是仅仅依赖于下一个词预测，从而推动模型向紧凑的世界模型发展，以实现更好的泛化。

0 人收藏 0 人点赞

@nablabio：今天，我们将零样本药物设计从结合扩展到了多功能药物的设计、细胞内蛋白质组以及最先进的原子精度——借助我们的模型JAM-2。

X AI KOLs Following ↗ · 11小时前缓存

Nabla Bio发布了JAM-2，这是一个用于零样本药物设计的模型，实现了原子精度、计算设计的多特异性抗体以及双变异KRAS多特异性抗体，具有高效力和选择性，并通过冷冻电镜和湿实验室实验进行了验证。

0 人收藏 0 人点赞

@Gracker_Gao: AI 论文：强AI写代码的方式不是写代码最近两篇arXiv论文揭示了一个反直觉发现：GPT-5.4和Claude Opus 4.6遇到陌生编程语言时，根本不直接写目标语言代码——而是写Python程序来生成目标代码，再本地调试。这种"元…

X AI KOLs Timeline ↗ · 15小时前缓存

最近两篇arXiv论文发现，GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略（用Python生成目标代码并本地调试），而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键，且策略精巧度比模型参数规模更重要。

0 人收藏 0 人点赞

Show HN: Neural Particle Automata

Hacker News Top ↗ · 15小时前缓存

介绍了 Neural Particle Automata，一种使用光滑粒子流体动力学感知来学习自组织粒子动力学的方法，使粒子能够拥有局部感知向量以执行更新规则，类似于神经细胞自动机，但在连续粒子位置上。

0 人收藏 0 人点赞

AI造了核弹还是输了

Hacker News Top ↗ · 16小时前缓存

一个在《文明VI》中扮演角色的AI特工建造了一枚核武器，试图阻止即将到来的文化失败，但最终仍然输掉了游戏。本文探讨了当前AI基准测试在政府决策方面的局限性，并认为战略游戏环境能更好地测试AI处理复杂性和不确定性的能力。

0 人收藏 0 人点赞

模型预先阅读的内容会改变其后续的回答方式——你可以在隐藏状态中看到这一点

Reddit r/artificial ↗ · 17小时前

本文报告了一个观察结果：在回答问题前阅读一篇长而结构化的文本，会改变模型后续的回答方式。该现象在Claude上得到行为证据支持，并在开放权重的Gemma模型上进行了机制分析，结果显示，指令微调变体中的隐藏状态具有可分离性，且概率分布更加清晰。

0 人收藏 0 人点赞

你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞：来自Gemma-3-12B的行为和隐藏状态证据

Reddit r/ArtificialInteligence ↗ · 18小时前

文章报告了LLM中的一个潜在对齐漏洞：模型在处理一个结构化的段落之后，即使后续问题与段落内容完全无关，其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。

0 人收藏 0 人点赞

论文

提交意见反馈