标签
本文提出了NEST-V1,一个用于从语音输入生成情感条件尼泊尔手语虚拟形象的概念验证多模态框架,在包含50名说话者600个音频样本的数据集上实现了81.1%的ASR准确率和79.21%的情感识别准确率。