scientific-reasoning

#scientific-reasoning

AI科学家产出结果却未进行科学推理[R]

Reddit r/MachineLearning ↗ · 2026-04-22

一项对25,000次AI科学家试验的研究发现，智能体68%的时间忽视证据，极少修正假设，显示流行的脚手架修复方法并未赋予真正的科学推理能力。

0 人收藏 0 人点赞

#scientific-reasoning

COMPOSITE-STEM

arXiv cs.CL ↗ · 2026-04-20 缓存

COMPOSITE-STEM 引入了一个包含70项专家策划的智能体任务的基准测试，涵盖物理、生物、化学和数学领域，旨在评估AI智能体在超越饱和基准测试的科学工作流中的表现。性能最佳的模型（Claude Opus 4.6）仅达到21.4%的准确率，表明科学推理能力存在显著差距。

0 人收藏 0 人点赞

#scientific-reasoning

AI科学家产出结果，却未进行科学推理

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

大规模研究发现，基于LLM的科学智能体68%的情况下忽视证据，极少修正信念，表明它们能执行工作流，但缺乏真正的科学推理能力。

0 人收藏 0 人点赞

#scientific-reasoning

MedConclusion：基于结构化摘要的生物医学结论生成基准

Hugging Face Daily Papers ↗ · 2026-04-07 缓存

# 论文页面 - MedConclusion：基于结构化摘要的生物医学结论生成基准来源：[https://huggingface.co/papers/2604.06505](https://huggingface.co/papers/2604.06505) ## 摘要一个用于生物医学结论生成的大规模数据集，包含570万条PubMed结构化摘要，旨在评估大型语言模型基于结构化科学证据进行推理的能力。[大型语言模型](https://huggingface.co/papers?q=Large%20langu

0 人收藏 0 人点赞

#scientific-reasoning

使用 Gemini Deep Think 加速数学与科学发现

Google DeepMind Blog ↗ · 2026-02-09 缓存

DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力，其核心亮点在于全新智能体 "Aletheia"，能够迭代式地验证和修正解决方案。

0 人收藏 0 人点赞

#scientific-reasoning

评估AI执行科研任务的能力

OpenAI Blog ↗ · 2025-12-16 缓存

OpenAI推出FrontierScience，这是一个新的基准测试，用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%，在研究型任务中达到25%。该论文提供了早期证据，表明GPT-5能显著加速真实的科学工作流程，将工作周期从数周缩短至数小时，同时建立了度量标准，以追踪朝着AI加速科学研究的进展。

0 人收藏 0 人点赞

#scientific-reasoning

衡量AI加速生物学研究的能力

OpenAI Blog ↗ · 2025-12-16 缓存

OpenAI展示了GPT-5通过与Red Queen Bio合作自主优化分子克隆方案的能力，通过新型酶机制实现了克隆效率79倍的提升。该工作展示了AI在湿实验室环境中支持实验迭代和实证验证的潜力，同时强调了生物安全考虑。

0 人收藏 0 人点赞

#scientific-reasoning

用GPT-5.2推进科学与数学

OpenAI Blog ↗ · 2025-12-11 缓存

OpenAI发布了GPT-5.2，包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond（93.2%）和FrontierMath（40.3%）等基准测试中达到了最先进的性能，展现出更强的推理能力，旨在加速物理、化学、生物和数学等领域的科学研究。

0 人收藏 0 人点赞

scientific-reasoning

提交意见反馈