标签
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
本文介绍AiraXiv,这是一个面向人类和AI科学家的AI驱动开放获取平台,具有交互式用户界面和基于MCP的交互功能,支持持续、反馈驱动的论文迭代和可扩展的研究基础设施。
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。