scientific-reasoning

标签

Cards List
#scientific-reasoning

AI科学家产出结果却未进行科学推理[R]

Reddit r/MachineLearning · 2026-04-22

一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。

0 人收藏 0 人点赞
#scientific-reasoning

COMPOSITE-STEM

arXiv cs.CL · 2026-04-20 缓存

COMPOSITE-STEM 引入了一个包含70项专家策划的智能体任务的基准测试,涵盖物理、生物、化学和数学领域,旨在评估AI智能体在超越饱和基准测试的科学工作流中的表现。性能最佳的模型(Claude Opus 4.6)仅达到21.4%的准确率,表明科学推理能力存在显著差距。

0 人收藏 0 人点赞
#scientific-reasoning

AI科学家产出结果,却未进行科学推理

Hugging Face Daily Papers · 2026-04-20 缓存

大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。

0 人收藏 0 人点赞
#scientific-reasoning

MedConclusion:基于结构化摘要的生物医学结论生成基准

Hugging Face Daily Papers · 2026-04-07 缓存

# 论文页面 - MedConclusion:基于结构化摘要的生物医学结论生成基准 来源:[https://huggingface.co/papers/2604.06505](https://huggingface.co/papers/2604.06505) ## 摘要 一个用于生物医学结论生成的大规模数据集,包含570万条PubMed结构化摘要,旨在评估大型语言模型基于结构化科学证据进行推理的能力。[大型语言模型](https://huggingface.co/papers?q=Large%20langu

0 人收藏 0 人点赞
#scientific-reasoning

使用 Gemini Deep Think 加速数学与科学发现

Google DeepMind Blog · 2026-02-09 缓存

DeepMind 宣布 Gemini Deep Think 具备解决数学、物理学和计算机科学领域专业研究问题的能力,其核心亮点在于全新智能体 "Aletheia",能够迭代式地验证和修正解决方案。

0 人收藏 0 人点赞
#scientific-reasoning

评估AI执行科研任务的能力

OpenAI Blog · 2025-12-16 缓存

OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。

0 人收藏 0 人点赞
#scientific-reasoning

衡量AI加速生物学研究的能力

OpenAI Blog · 2025-12-16 缓存

OpenAI展示了GPT-5通过与Red Queen Bio合作自主优化分子克隆方案的能力,通过新型酶机制实现了克隆效率79倍的提升。该工作展示了AI在湿实验室环境中支持实验迭代和实证验证的潜力,同时强调了生物安全考虑。

0 人收藏 0 人点赞
#scientific-reasoning

用GPT-5.2推进科学与数学

OpenAI Blog · 2025-12-11 缓存

OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈