发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]
摘要
在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库(11种语言,CC0许可),包含约84亿个token,专为多语言研究而构建。
这是在过去几周内为多语言研究项目构建的。我想在这里分享一下。来看看吧!~980万网络文档,涵盖11种语言——hi、bn、ta、te、mr、gu、kn、ml、pa、ur、en。~84亿个token。CC0许可。🤗 [https://huggingface.co/datasets/AM0908/indic-hplt-v1](https://huggingface.co/datasets/AM0908/indic-hplt-v1)
相似文章
@cognitivelab_ai:推出NayanaOCR语料库——包含22种语言的100多万张文档图像,最大规模开源合成、多语言、多模态、多任务文档语料库
推出NayanaOCR语料库,这是一个开源的合成文档语料库,包含22种语言的100多万张图像,专为多语言、多模态、多任务的OCR研究而设计。
Hugging Face 数据集突破 100 万!
庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。
ForMaT:视觉引导的多语言PDF翻译数据集
本文介绍了ForMaT,一个包含15个语言对、3,956个PDF文件的平行语料库,专为视觉引导的多语言翻译而设计,保留了布局元数据,用于对布局感知的机器翻译系统进行基准测试。
huggingface/transformers 发布 5.8.0 版本
Hugging Face 发布了 Transformers 库 5.8.0 版本,这是一个广泛用于自然语言处理和深度学习的开源框架。
@tom_doerr: 支持130种语言的多语言NLP库 https://github.com/hankcs/HanLP
HanLP是一个开源的多语言NLP库,支持130种语言和10个联合任务,基于PyTorch和TensorFlow 2.x构建。