rubric

标签

Cards List
#rubric

针对自主AI供应商的开源采购评估标准,我对其中5家进行了评分,希望能获得关于评估方法的反馈

Reddit r/AI_Agents · 2026-06-11

作者创建了一个开源评估工具,用于评估自主AI供应商在工具调用正确性、循环终止和多步状态一致性方面的文档,对五家供应商(Anthropic、OpenAI、LangGraph、Sierra、Salesforce)进行了评分,并请求就评估方法及对公开文档深度的潜在偏差提供反馈。

0 人收藏 0 人点赞
#rubric

使用大型语言模型支持本科生研究项目的高容量申请审阅

arXiv cs.CL · 2026-06-05 缓存

本文描述了基于LLM的工具的开发,该工具使用OpenAI的GPT模型评估普渡大学SURF项目约1,200份目的陈述,处理时间约4.6小时,相比传统人工评分加速了审阅流程。

0 人收藏 0 人点赞
#rubric

视觉语言模型能否在数学教育中实现自适应?基于学习者模型的评价标准研究

arXiv cs.CL · 2026-05-18 缓存

本文提出了一种基于学习者模型的评价标准,用于评估视觉语言模型(VLM)在数学教育中的自适应性。实验表明,不同模型在自适应性上存在可测量的差异,并揭示了当前的VLM难以生成一致且适应学习者的教学回应。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈