Released a free 9.8M doc Indic multilingual corpus — Hindi, Bengali, Tamil, Telugu + 7 more (CC0, HuggingFace) [P]

Reddit r/MachineLearning 05/18/26, 11:09 PM Tools

multilingual corpus indic-languages open-data huggingface nlp dataset

Summary

Released a free 9.8 million document multilingual Indic corpus (11 languages, CC0 license) on HuggingFace, containing approximately 8.4 billion tokens, built for multilingual research.

Built this over the past few weeks as part of a multilingual research project. Figured I'd share it here. Check it out! \~9.8M web documents across 11 languages — hi, bn, ta, te, mr, gu, kn, ml, pa, ur, en. \~8.4B tokens. CC0 license. 🤗 [https://huggingface.co/datasets/AM0908/indic-hplt-v1](https://huggingface.co/datasets/AM0908/indic-hplt-v1)

Original Article

Similar Articles

@cognitivelab_ai: Launching NayanaOCR Corpus 1M+ Document images across 22 languages Largest open source synthetic > multilingual > multi…

X AI KOLs Following

Launch of NayanaOCR Corpus, an open-source synthetic document corpus with over 1 million images across 22 languages, designed for multilingual, multimodal, and multitask OCR research.

Released a free 9.8M doc Indic multilingual corpus — Hindi, Bengali, Tamil, Telugu + 7 more (CC0, HuggingFace) [P]

Similar Articles

@cognitivelab_ai: Launching NayanaOCR Corpus 1M+ Document images across 22 languages Largest open source synthetic > multilingual > multi…

1M datasets on HF !

ForMaT: Dataset for Visually-Grounded Multilingual PDF Translation

huggingface/transformers Release 5.8.0

@tom_doerr: Multilingual NLP library supporting 130 languages https://github.com/hankcs/HanLP

Submit Feedback