标签
阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。
LlamaIndex 创始人 Jerry Liu 讨论了公司从通用AI框架的战略转型,转而专注于从企业文档(如PDF和PowerPoint)中提供高精度的上下文提取,目标是在法律、保险和金融领域的代理工作流中实现95%以上的准确率。