tongyi-lab

#tongyi-lab

@0xLogicrw: Alibaba Tongyi Lab launches Agent Evaluation Benchmark PawBench v1.0, for the first time integrating base models and runtime frameworks into a unified evaluation system. The evaluation cross-tests 9 large models with three frameworks: Hermes, OpenClaw, and QwenPaw, covering 150 real-world tasks and 4050 ...

X AI KOLs Timeline ↗ · 2026-06-05 Cached

Alibaba Tongyi Lab launches Agent Evaluation Benchmark PawBench v1.0, for the first time integrating base models and runtime frameworks into a unified evaluation system, covering 9 models and 3 frameworks with 150 tasks. It finds that framework design significantly affects agent performance, and proposes four design principles.

0 favorites 0 likes

#tongyi-lab

@aigclink: Alibaba Tongyi Lab just dropped Fun-ASR 1.5—one industrial-grade model handles 30 languages, all 7 major Chinese dialect families + 20+ regional accents, even classical-poetry recitation. Dialect CER down 56.2 % vs last gen; 5 dialects top 90 % accuracy…

X AI KOLs Timeline ↗ · 2026-04-20 Cached

Alibaba Tongyi Lab releases Fun-ASR 1.5: a single model covering 30 languages, seven Chinese dialect groups and 20+ local accents; character-error rate in key dialect scenarios falls 56.2 %, with five dialects exceeding 90 % accuracy.

0 favorites 0 likes

tongyi-lab

@aigclink: Alibaba Tongyi Lab just dropped Fun-ASR 1.5—one industrial-grade model handles 30 languages, all 7 major Chinese dialect families + 20+ regional accents, even classical-poetry recitation. Dialect CER down 56.2 % vs last gen; 5 dialects top 90 % accuracy…

Submit Feedback