介绍了 Neural Particle Automata,一种使用光滑粒子流体动力学感知来学习自组织粒子动力学的方法,使粒子能够拥有局部感知向量以执行更新规则,类似于神经细胞自动机,但在连续粒子位置上。
一个在《文明VI》中扮演角色的AI特工建造了一枚核武器,试图阻止即将到来的文化失败,但最终仍然输掉了游戏。本文探讨了当前AI基准测试在政府决策方面的局限性,并认为战略游戏环境能更好地测试AI处理复杂性和不确定性的能力。
本文报告了一个观察结果:在回答问题前阅读一篇长而结构化的文本,会改变模型后续的回答方式。该现象在Claude上得到行为证据支持,并在开放权重的Gemma模型上进行了机制分析,结果显示,指令微调变体中的隐藏状态具有可分离性,且概率分布更加清晰。
文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。
本技术报告介绍了VibeThinker-3B,一个3B参数的密集模型,在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能,通过结合基于课程的SFT、多领域RL和离线自蒸馏,匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。
本文提出了一种智能的热力学度量,定义为'rare-valid lift',并论证了递归自模拟对于高热力学智能是必要且近乎充分的,从而使智能可以在通用尺度上衡量。
研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。
本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。
对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。
详细博客文章,解释Sakana Fugu技术报告,该报告介绍了将任务路由到专业模型以实现集体智能的编排器AI模型。
计算复杂性理论家认为,半经典引力中的非线性动力学将使得不可想象的强大计算成为可能,从而证明引力必须量子化。该论文利用薛定谔-牛顿方程表明,经典引力与量子物质耦合会导致计算矛盾。
NVIDIA与卡内基梅隆大学(CMU)和加州大学伯克利分校(UC Berkeley)共同开发的ENPIRE框架,利用AI编码智能体自主训练机器人执行高精度物理任务(如GPU安装),通过闭环反馈和真实硬件测试实现了99%的成功率。
《自然》杂志上来自巴基斯坦基因组资源(PGR)的一篇新论文分析了来自近亲社区的173,303名巴基斯坦人,识别出近三分之一蛋白质编码基因的人类基因敲除,推翻了诸如PRDM9对生育能力必需性等生物学假设。
本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。
介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。
这篇博客分析了PivCo-Huffman论文,该论文引入了并行Huffman解码的“合并”操作,无需交错开销即可实现高效的向量化和GPU友好解码。
Arbor通过使用约束网格(壳体、避让、接触区域)对潜在生成进行条件化,为3D资产生成引入了显式几何控制,在不牺牲物体质量的前提下提升了空间约束的遵从性。