发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Reddit r/MachineLearning 2026/05/18 23:09 工具

multilingual corpus indic-languages open-data huggingface nlp dataset

摘要

在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库（11种语言，CC0许可），包含约84亿个token，专为多语言研究而构建。

这是在过去几周内为多语言研究项目构建的。我想在这里分享一下。来看看吧！~980万网络文档，涵盖11种语言——hi、bn、ta、te、mr、gu、kn、ml、pa、ur、en。~84亿个token。CC0许可。🤗 [https://huggingface.co/datasets/AM0908/indic-hplt-v1](https://huggingface.co/datasets/AM0908/indic-hplt-v1)

查看原文

相似文章

@cognitivelab_ai：推出NayanaOCR语料库——包含22种语言的100多万张文档图像，最大规模开源合成、多语言、多模态、多任务文档语料库

X AI KOLs Following

推出NayanaOCR语料库，这是一个开源的合成文档语料库，包含22种语言的100多万张图像，专为多语言、多模态、多任务的OCR研究而设计。

Hugging Face 数据集突破 100 万！

Reddit r/LocalLLaMA

庆祝 Hugging Face 社区达成 100 万个数据集的里程碑，彰显社区通过开放数据协作推动 AI 发展的共同努力。

ForMaT：视觉引导的多语言PDF翻译数据集

arXiv cs.CL

本文介绍了ForMaT，一个包含15个语言对、3,956个PDF文件的平行语料库，专为视觉引导的多语言翻译而设计，保留了布局元数据，用于对布局感知的机器翻译系统进行基准测试。

huggingface/transformers 发布 5.8.0 版本

GitHub Releases Watchlist

Hugging Face 发布了 Transformers 库 5.8.0 版本，这是一个广泛用于自然语言处理和深度学习的开源框架。

@tom_doerr: 支持130种语言的多语言NLP库 https://github.com/hankcs/HanLP

X AI KOLs Timeline

HanLP是一个开源的多语言NLP库，支持130种语言和10个联合任务，基于PyTorch和TensorFlow 2.x构建。

提交意见反馈