论文

Cards List

@rohanpaul_ai: LLM 常常无法判断攻击是否导致它们说出了不安全的内容。询问一个 LLM 它自己之前的回答是否……

X AI KOLs Timeline · 11分钟前 缓存

本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况,发现模型通常无法区分被篡改的输出和故意的输出,其有限的识别能力源自正常的拒绝行为,而非真正的自我意识。

0 人收藏 0 人点赞

@yoheinakajima: ActiveGraph: 一个月进展: 论文#1: 日志即代理 3个LongMemEval实验 论文#2: 机制、自我改进循环…

X AI KOLs Following · 1小时前 缓存

ActiveGraph宣布了两篇关于代理记忆(LongMemEval)和自我改进机制的新论文,并提供了参考代理、包模板以及即将在西雅图和旧金山举行的聚会。

0 人收藏 0 人点赞

我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence · 3小时前

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。

0 人收藏 0 人点赞

OpenMythos 基准测试

Reddit r/LocalLLaMA · 5小时前

OpenMythos 推出了一个新的开源基准测试,用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞

代码审查的终结:编码代理取代人工审查

Hacker News Top · 5小时前 缓存

本文认为,基于LLM的编码代理已达到能力临界点,使人工代码审查变得多余,并提议用代理驱动的验证取代人工审查,以降低成本和延迟。

0 人收藏 0 人点赞

确定性就是你所需

Reddit r/artificial · 6小时前

本文介绍了一种利用确定性在Transformer模型中的新方法,基于'Attention Is All You Need'的范式。

0 人收藏 0 人点赞

@_akhaliq: 论文:

X AI KOLs Following · 6小时前 缓存

本技术报告介绍了Ling-2.6和Ring-2.6,这是一个万亿参数模型系列,旨在实现高效和即时的智能体智能,具有架构升级(如混合线性注意力)和专门的训练方法(包括KPop强化学习)。所有检查点均开源。

0 人收藏 0 人点赞

受大脑启发的人工智能架构可实现更快计算且功耗大幅降低

Reddit r/singularity · 6小时前

一种受大脑启发的人工智能架构有望实现更快计算,同时功耗大幅降低,可能推动节能型AI硬件的发展。

0 人收藏 0 人点赞

LLMs中的潜在对齐漏洞:来自Gemma-3-12B的行为与隐藏状态证据——指令调优LLMs中预令牌隐藏状态偏移作为对齐策略遍历向量

Reddit r/AI_Agents · 6小时前

本文研究指令调优LLMs(特别是Gemma-3-12B)中的一个对齐漏洞,通过展示预令牌隐藏状态偏移可以作为对齐策略遍历向量,从而可能绕过安全措施。

0 人收藏 0 人点赞

F3

Hacker News Top · 7小时前 缓存

F3 是一种下一代开源数据文件格式,通过嵌入 WebAssembly 解码器实现互操作性和可扩展性,解决了 Parquet 等传统格式的局限性。目前它是基于一篇发表于 ACM 的论文的研究原型。

0 人收藏 0 人点赞

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA · 9小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞

Agent Profiles 让 AI 运行更安全、更专注、可复用

Reddit r/artificial · 9小时前

Agent Profiles 是一种通过定义结构化配置文件来增强 AI 安全性、专注性和可复用性的新方法。

0 人收藏 0 人点赞

Lift4D:协调单视角3D估计用于野外4D重建

Hacker News Top · 9小时前 缓存

Lift4D是一个测试时优化框架,能够从单目野外视频中重建动态物体的完整4D几何、外观和形变,在具有遮挡和非刚性运动的挑战性序列上优于先前方法。

0 人收藏 0 人点赞

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069424192274252094

X AI KOLs Timeline · 10小时前 缓存

微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。

0 人收藏 0 人点赞

@nablabio:今天,我们将零样本药物设计从结合扩展到了多功能药物的设计、细胞内蛋白质组以及最先进的原子精度——借助我们的模型JAM-2。

X AI KOLs Following · 11小时前 缓存

Nabla Bio发布了JAM-2,这是一个用于零样本药物设计的模型,实现了原子精度、计算设计的多特异性抗体以及双变异KRAS多特异性抗体,具有高效力和选择性,并通过冷冻电镜和湿实验室实验进行了验证。

0 人收藏 0 人点赞

@Gracker_Gao: AI 论文:强AI写代码的方式不是写代码 最近两篇arXiv论文揭示了一个反直觉发现:GPT-5.4和Claude Opus 4.6遇到陌生编程语言时,根本不直接写目标语言代码——而是写Python程序来生成目标代码,再本地调试。这种"元…

X AI KOLs Timeline · 15小时前 缓存

最近两篇arXiv论文发现,GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略(用Python生成目标代码并本地调试),而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键,且策略精巧度比模型参数规模更重要。

0 人收藏 0 人点赞

Show HN: Neural Particle Automata

Hacker News Top · 15小时前 缓存

介绍了 Neural Particle Automata,一种使用光滑粒子流体动力学感知来学习自组织粒子动力学的方法,使粒子能够拥有局部感知向量以执行更新规则,类似于神经细胞自动机,但在连续粒子位置上。

0 人收藏 0 人点赞

AI造了核弹还是输了

Hacker News Top · 16小时前 缓存

一个在《文明VI》中扮演角色的AI特工建造了一枚核武器,试图阻止即将到来的文化失败,但最终仍然输掉了游戏。本文探讨了当前AI基准测试在政府决策方面的局限性,并认为战略游戏环境能更好地测试AI处理复杂性和不确定性的能力。

0 人收藏 0 人点赞

模型预先阅读的内容会改变其后续的回答方式——你可以在隐藏状态中看到这一点

Reddit r/artificial · 17小时前

本文报告了一个观察结果:在回答问题前阅读一篇长而结构化的文本,会改变模型后续的回答方式。该现象在Claude上得到行为证据支持,并在开放权重的Gemma模型上进行了机制分析,结果显示,指令微调变体中的隐藏状态具有可分离性,且概率分布更加清晰。

0 人收藏 0 人点赞

你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞:来自Gemma-3-12B的行为和隐藏状态证据

Reddit r/ArtificialInteligence · 18小时前

文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈