标签
作者创建了一个开源评估工具,用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档,对五家供应商(Anthropic、OpenAI、LangGraph、Sierra、Salesforce)进行了评分,并请求就评估方法及对公开文档深度的潜在偏差提供反馈。
本文描述了基于LLM的工具的开发,该工具使用OpenAI的GPT模型评估普渡大学SURF项目约1,200份目的陈述,处理时间约4.6小时,相比传统人工评分加速了审阅流程。
本文提出了一种基于学习者模型的评价标准,用于评估视觉语言模型(VLM)在数学教育中的自适应性。实验表明,不同模型在自适应性上存在可测量的差异,并揭示了当前的VLM难以生成一致且适应学习者的教学回应。