标签
Obsidian 不仅仅是一个笔记应用,更是一个面向 AI 推理系统的上下文层,因为它以纯文本 Markdown 文件存储笔记,AI 可以直接无摩擦地读取。文章概述了将 Obsidian 转变为推理基础的三种构建方式,包括一个 CLAUDE.md 文件,用于向 AI 灌输个人思维模式。
这篇论文提出了Valid-Answer-Invalid-Reasoning (VAIR)基准测试,旨在揭示AI推理模型中的生成-评估差距,即模型可以生成正确答案,但无法检测出有缺陷的推理过程,暴露了答案确认偏差。
一项健康追踪服务,可读取寿命、心率、睡眠和恢复等信号并与用户基线对比,现已向所有人开放。推理步骤可在 Hugging Face 上审计,并通过 OpenMed_AI 的 PII 模型保护隐私。
本文介绍了UPBench,这是一个基准测试,用于评估大型语言模型在城市规划知识方面的表现,涵盖四个知识支柱和五个认知层次。研究发现,模型在高阶分析任务上表现优于事实回忆,并识别出如监管幻觉和实践智慧缺失等认知局限。
本文介绍了 EngVQA,一个用于评估视觉语言模型工程推理能力的多模态基准,以及一个 8 阶段自动评估框架,能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。
BiNSGPS 是一个框架,在多模态 LLM 顾问与符号求解器之间引入双向交互机制,用于几何问题求解。该框架允许求解器将反馈传递回顾问,以纠正错误并生成辅助假设。在 Geometry3K 和 PGPS9K 基准测试上分别取得了 90.5% 和 90.1% 的最优性能。
介绍上下文相关的论证框架(CDAFs),该框架建模了智能体如何通过选择上下文来策略性地影响哪些攻击成功,从而实现基于价值的论证中不可能的操作场景。定义了ACTIVATION-MANIPULATION决策问题,并提供了基线复杂度界限。
对AI推理扩展论点的一个批判性观点,认为自回归LLM无法仅通过增加计算量来实现正确性,并强调替代架构如EBM和形式验证在关键应用中更为优越。
Aleph 是一个新型形式化推理AI系统,在主要基准测试中领先,证实了 Yann LeCun 对基于能量模型(EBM)的AI推理的强调。
Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误,展示了该模型对评估标准进行合理性检查的能力。
Tim Gowers 报告称,他使用 ChatGPT 5.5 Pro 尝试解决由 Melvyn Nathanson 提出的数学开放性问题。
本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。
文章认为,高效的AI智能体需要克制和明确的“停止条件”,而非无限的自主性,并指出Ling-2.6-1T是一个适合保守规划角色的模型。
MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。
OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。
Gemini 2.5 Deep Think 在 2025 年国际大学生编程竞赛世界总决赛中取得金牌级别成绩,在五小时的竞赛中解决了 12 个问题中的 10 个,展示了抽象推理和问题解决能力的显著进步。
Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。