knowledge-bases

#knowledge-bases

AFFORDANCE20Q：基于物理属性的可操作推理评估

arXiv cs.AI ↗ · 2026-06-15 缓存

Affordance20Q 是一个基准测试，采用20个问题格式，评估大型语言模型在隐藏物体身份的情况下，从物理属性推断物体可操作性的能力。实验表明，大型语言模型与人类之间存在约20个百分点的差距，而提出的KARI流水线可将开源大型语言模型的性能提升高达15.2个百分点。

0 人收藏 0 人点赞

#knowledge-bases

arXiv cs.AI ↗ · 2026-06-02 缓存

本文介绍了多智能体知识库的审慎策展协议，解决了智能体无状态性和阿谀奉承等治理缺陷。通过仿真评估，该协议在对抗条件下展现出更强的鲁棒性。

0 人收藏 0 人点赞

#knowledge-bases

X AI KOLs Timeline ↗ · 2026-05-30 缓存

DAIR Academy宣布举办一场免费的实时会议，主题是构建可视化LLM artifacts，使LLM知识库更具可操作性，同时还会介绍新工具和面向Pro成员的更新发布。

0 人收藏 0 人点赞

#knowledge-bases

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

DeepRefine 是一篇研究论文，介绍了一种基于大语言模型的推理模型，该模型利用强化学习和多轮交互来精炼智能体编译的知识库，从而提高下游任务的性能。

0 人收藏 0 人点赞

#knowledge-bases

X AI KOLs Following ↗ · 2026-05-08 缓存

DAIR Academy 将于 2026 年 5 月 21 日举办一场免费直播，演示构建视觉 LLM 产物以增强知识库的框架。

0 人收藏 0 人点赞