标签
Affordance20Q 是一个基准测试,采用20个问题格式,评估大型语言模型在隐藏物体身份的情况下,从物理属性推断物体可操作性的能力。实验表明,大型语言模型与人类之间存在约20个百分点的差距,而提出的KARI流水线可将开源大型语言模型的性能提升高达15.2个百分点。
本文介绍了多智能体知识库的审慎策展协议,解决了智能体无状态性和阿谀奉承等治理缺陷。通过仿真评估,该协议在对抗条件下展现出更强的鲁棒性。
DAIR Academy宣布举办一场免费的实时会议,主题是构建可视化LLM artifacts,使LLM知识库更具可操作性,同时还会介绍新工具和面向Pro成员的更新发布。
DeepRefine 是一篇研究论文,介绍了一种基于大语言模型的推理模型,该模型利用强化学习和多轮交互来精炼智能体编译的知识库,从而提高下游任务的性能。
DAIR Academy 将于 2026 年 5 月 21 日举办一场免费直播,演示构建视觉 LLM 产物以增强知识库的框架。