标签
Vik Paruchuri宣布了研究驱动的防护措施,在其基准测试中将OCR幻觉降至接近零,并为任何残留错误提供单词级边界框和置信度分数。
一种新颖的多语言词级强制对齐方法,结合了来自MMS的自监督表示和音素边界检测器,以及一个学习动态规划解码器,在英语和未见过的语言上优于现有对齐方法,无需额外训练。