ai-reasoning

#ai-reasoning

@DamiDefi: https://x.com/DamiDefi/status/2069709515721715954

X AI KOLs Timeline ↗ · 11小时前缓存

Obsidian 不仅仅是一个笔记应用，更是一个面向 AI 推理系统的上下文层，因为它以纯文本 Markdown 文件存储笔记，AI 可以直接无摩擦地读取。文章概述了将 Obsidian 转变为推理基础的三种构建方式，包括一个 CLAUDE.md 文件，用于向 AI 灌输个人思维模式。

0 人收藏 0 人点赞

#ai-reasoning

@rohanpaul_ai: 这篇论文揭示了AI推理中的一个奇怪弱点：模型可以解决数学问题，却无法判断推理过程。令人不安的是…

X AI KOLs Following ↗ · 2026-06-16 缓存

这篇论文提出了Valid-Answer-Invalid-Reasoning (VAIR)基准测试，旨在揭示AI推理模型中的生成-评估差距，即模型可以生成正确答案，但无法检测出有缺陷的推理过程，暴露了答案确认偏差。

0 人收藏 0 人点赞

#ai-reasoning

@MaziyarPanahi：今天之前已有 110 多人申请早期访问，现已向所有人开放。它读取的指标包括寿命追踪、心脏、睡眠和恢复，并与你的基线进行比较……

X AI KOLs Following ↗ · 2026-06-16 缓存

一项健康追踪服务，可读取寿命、心率、睡眠和恢复等信号并与用户基线对比，现已向所有人开放。推理步骤可在 Hugging Face 上审计，并通过 OpenMed_AI 的 PII 模型保护隐私。

0 人收藏 0 人点赞

#ai-reasoning

AI能否像城市规划师一样推理？基于专业判断对大型语言模型进行基准测试

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了UPBench，这是一个基准测试，用于评估大型语言模型在城市规划知识方面的表现，涵盖四个知识支柱和五个认知层次。研究发现，模型在高阶分析任务上表现优于事实回忆，并识别出如监管幻觉和实践智慧缺失等认知局限。

0 人收藏 0 人点赞

#ai-reasoning

VLMs 是否像工程师一样推理？一个基准与分阶段评估

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了 EngVQA，一个用于评估视觉语言模型工程推理能力的多模态基准，以及一个 8 阶段自动评估框架，能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。

0 人收藏 0 人点赞

#ai-reasoning

BiNSGPS：基于双向神经符号交互的几何问题求解

arXiv cs.AI ↗ · 2026-06-04 缓存

BiNSGPS 是一个框架，在多模态 LLM 顾问与符号求解器之间引入双向交互机制，用于几何问题求解。该框架允许求解器将反馈传递回顾问，以纠正错误并生成辅助假设。在 Geometry3K 和 PGPS9K 基准测试上分别取得了 90.5% 和 90.1% 的最优性能。

0 人收藏 0 人点赞

#ai-reasoning

选择视角：上下文相关论证中的策略性视角激活

arXiv cs.AI ↗ · 2026-06-01 缓存

介绍上下文相关的论证框架（CDAFs），该框架建模了智能体如何通过选择上下文来策略性地影响哪些攻击成功，从而实现基于价值的论证中不可能的操作场景。定义了ACTIVATION-MANIPULATION决策问题，并提供了基线复杂度界限。

0 人收藏 0 人点赞

#ai-reasoning

对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。

Reddit r/artificial ↗ · 2026-05-18

对AI推理扩展论点的一个批判性观点，认为自回归LLM无法仅通过增加计算量来实现正确性，并强调替代架构如EBM和形式验证在关键应用中更为优越。

0 人收藏 0 人点赞

#ai-reasoning

@Kseniase_: EBM强势回归！@ylecun多年来一直指出：AI推理需要先检查结构再作答的系统……

X AI KOLs Following ↗ · 2026-05-15 缓存

Aleph 是一个新型形式化推理AI系统，在主要基准测试中领先，证实了 Yann LeCun 对基于能量模型（EBM）的AI推理的强调。

0 人收藏 0 人点赞

#ai-reasoning

抽象论证中扩展的多样性

arXiv cs.AI ↗ · 2026-05-14 缓存

本文基于对称差引入了抽象论证中扩展的量化多样性概念，并对相关推理任务进行了系统的复杂性分类。

0 人收藏 0 人点赞

#ai-reasoning

GPT-5.5 被用于标记 FrontierMath 问题中的致命错误

Reddit r/singularity ↗ · 2026-05-12

Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误，展示了该模型对评估标准进行合理性检查的能力。

0 人收藏 0 人点赞

#ai-reasoning

@wtgowers: 我也开始尝试让 AI 解决数学中的开放性问题。更准确地说，我把 Melvyn Nathanson 提出的几个问题提交给了 ChatGPT 5.5 Pro……

X AI KOLs Following ↗ · 2026-05-08 缓存

Tim Gowers 报告称，他使用 ChatGPT 5.5 Pro 尝试解决由 Melvyn Nathanson 提出的数学开放性问题。

0 人收藏 0 人点赞

#ai-reasoning

向思维模型教授工具推理：工具集成推理的全流程方案

arXiv cs.CL ↗ · 2026-05-08 缓存

本文提出了一种全流程方案，用于向思维模型教授工具推理，该方法应用于 Qwen3 模型时，在 AIME 2025 等基准测试上实现了最先进的性能。

0 人收藏 0 人点赞

#ai-reasoning

最佳智能体模型是懂得何时停止的那一个

Reddit r/AI_Agents ↗ · 2026-05-07

文章认为，高效的AI智能体需要克制和明确的“停止条件”，而非无限的自主性，并指出Ling-2.6-1T是一个适合保守规划角色的模型。

0 人收藏 0 人点赞

#ai-reasoning

教人工智能模型说“我不确定”

MIT News — Artificial Intelligence ↗ · 2026-04-22 缓存

MIT CSAIL 研究人员提出 RLCR 方法，在强化学习中引入布雷尔分数（Brier scores），训练 AI 模型输出经过校准的置信度估计，在显著降低过度自信的同时，不牺牲准确率。

0 人收藏 0 人点赞

#ai-reasoning

我们首次提交的 First Proof 证明

OpenAI Blog ↗ · 2026-02-20 缓存

OpenAI 为 First Proof 挑战提交了证明尝试，该挑战是一项研究级别的数学竞赛，旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题（共十个），展示了其在持续推理和严谨数学思维方面的显著进展。

0 人收藏 0 人点赞

#ai-reasoning

Gemini 在国际大学生编程竞赛世界总决赛中获得金牌级别成绩

Google DeepMind Blog ↗ · 2025-10-24 缓存

Gemini 2.5 Deep Think 在 2025 年国际大学生编程竞赛世界总决赛中取得金牌级别成绩，在五小时的竞赛中解决了 12 个问题中的 10 个，展示了抽象推理和问题解决能力的显著进步。

0 人收藏 0 人点赞

#ai-reasoning

在 Gemini 应用中尝试 Deep Think

Google DeepMind Blog ↗ · 2025-10-23 缓存

Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think，这是一项新的推理能力，采用并行思维技术，在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。

0 人收藏 0 人点赞

ai-reasoning

提交意见反馈