标签
本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。
# Consensus 使用 GPT-5 和 Responses API 在几分钟内完成数周的研究 来源:[https://openai.com/index/consensus/](https://openai.com/index/consensus/) 每年都有数百万篇新的科学论文发表——远远超过任何一个人能阅读的数量。对于科学家来说,挑战不在于获取知识的途径,而在于寻找、解释和关联信息的繁重任务。突破发生在已知领域的边界,然而研究人员大部分时间都在寻找