标签
本文介绍了一个包含噪声文本(ASR、拼写错误)的孟加拉语事件检测基准,并评估了仅编码器和仅解码器的大语言模型,发现解码器模型对噪声的鲁棒性更强。
本文介绍BLADE,一个文化对齐的指令微调数据集,包含4,196个交互对,用于修复多语言孟加拉语生成中的敬语失误和语用差距。在此数据集上微调DeepSeek-8B和LLaMA-3.2-3B等模型,在结构保真度和敬语对齐方面取得了显著改进。