标签
本文在合成退化与真实扫描条件下对十种OCR系统进行了天城文基准测试,发现合成渲染高估了质量,专用OCR-VLM脆弱,且强大的英文OCR无法预测印地语OCR性能。发布了基准、代码和模型。
提出了一种系统方法论,将印地语WordNet转换为125万条指令-响应对,并利用LoRA对12B参数语言模型进行微调,展示了在低资源语言专业对话系统中教学效果的显著提升。
Amazon正在印度测试其生成式AI助手Alexa+的印地语版本,邀请用户加入测试计划,以便在广泛推出前优化体验。