agentic-evaluation

标签

Cards List
#agentic-evaluation

@MSFTResearch:大规模评估智能体行为,倡导以仓库替代文档,并邀请全球研究者共同应对价值对齐挑战…

X AI KOLs Following · 2026-06-01 缓存

微软研究院最新通讯重点介绍了AgentPex(一个用于自动评估智能体行为的开源系统);关于排序系统方差缩减的新理论工作;呼吁从文档转向仓库以促进人机协作;以及一项关于AI价值对齐的全球挑战。

0 人收藏 0 人点赞
#agentic-evaluation

工业化预测驱动推断:用于可靠GenAI与智能体系统评估的GLIDE库

arXiv cs.AI · 2026-06-01 缓存

GLIDE是一个开源Python库,统一了最先进的预测驱动推断方法,用于生成式AI和智能体系统的无偏评估,能够在保证有效不确定性估计的同时节省标注成本。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈