发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Reddit r/MachineLearning 工具

摘要

在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库(11种语言,CC0许可),包含约84亿个token,专为多语言研究而构建。

这是在过去几周内为多语言研究项目构建的。我想在这里分享一下。来看看吧!~980万网络文档,涵盖11种语言——hi、bn、ta、te、mr、gu、kn、ml、pa、ur、en。~84亿个token。CC0许可。🤗 [https://huggingface.co/datasets/AM0908/indic-hplt-v1](https://huggingface.co/datasets/AM0908/indic-hplt-v1)
查看原文

相似文章

Hugging Face 数据集突破 100 万!

Reddit r/LocalLLaMA

庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。

ForMaT:视觉引导的多语言PDF翻译数据集

arXiv cs.CL

本文介绍了ForMaT,一个包含15个语言对、3,956个PDF文件的平行语料库,专为视觉引导的多语言翻译而设计,保留了布局元数据,用于对布局感知的机器翻译系统进行基准测试。