标签
本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。