标签
阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。
阿里通义实验室发布Fun-ASR 1.5,单模型覆盖30种语言、汉语七大方言及20余种地方口音,典型方言场景字错率较上代下降56.2%,5种方言准确率突破90%。