rubric

#rubric

针对自主AI供应商的开源采购评估标准，我对其中5家进行了评分，希望能获得关于评估方法的反馈

Reddit r/AI_Agents ↗ · 2026-06-11

作者创建了一个开源评估工具，用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档，对五家供应商（Anthropic、OpenAI、LangGraph、Sierra、Salesforce）进行了评分，并请求就评估方法及对公开文档深度的潜在偏差提供反馈。

0 人收藏 0 人点赞

#rubric

arXiv cs.CL ↗ · 2026-06-05 缓存

本文描述了基于LLM的工具的开发，该工具使用OpenAI的GPT模型评估普渡大学SURF项目约1,200份目的陈述，处理时间约4.6小时，相比传统人工评分加速了审阅流程。

0 人收藏 0 人点赞

#rubric

arXiv cs.CL ↗ · 2026-05-18 缓存

本文提出了一种基于学习者模型的评价标准，用于评估视觉语言模型（VLM）在数学教育中的自适应性。实验表明，不同模型在自适应性上存在可测量的差异，并揭示了当前的VLM难以生成一致且适应学习者的教学回应。

0 人收藏 0 人点赞