corpus

#corpus

Darshana Graph：用于比较印度哲学的平行注释语料库，并附带文体测量与探索性图分析

arXiv cs.CL ↗ · 4小时前缓存

本文介绍了Darshana Graph，一个用于比较印度哲学的平行注释语料库，并展示了文体测量与探索性图分析。

0 人收藏 0 人点赞

#corpus

AAbAAC：自身免疫信息提取的标注语料库

arXiv cs.AI ↗ · 5天前缓存

AAbAAC是一个手动标注的语料库，包含115篇PubMed摘要，用于自身免疫信息提取，重点关注自身免疫疾病和自身抗体等实体。研究表明，在该语料库上进行微调后，命名实体识别（NER）性能有所提升。

0 人收藏 0 人点赞

#corpus

HKJudge：一个用于解读法院认定、推理和裁决的法律话语标注语料库

arXiv cs.CL ↗ · 2026-06-08 缓存

HKJudge是首个针对香港刑事判决进行句子级专家标注的法律话语语料库，包含两层话语标注体系以及基于BERT和LLM模型的基准评估。

0 人收藏 0 人点赞

#corpus

基于历史文本的预训练语言模型

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了 TypewriterLM，一个参数规模为 7.24B 的语言模型，仅基于 1913 年之前的英文文本进行训练；同时介绍了 TypewriterCorpus（一个包含 540 亿 token 的清洗后历史语料库）以及指令微调数据集，以避免时间泄露和前瞻偏差。此外，还提出了一个基准测试套件 History-Event，用于评估时间定位能力和泄露情况。

0 人收藏 0 人点赞

#corpus

KletterMix：迈向高质量德语预训练数据

Hugging Face Daily Papers ↗ · 2026-06-02

KletterMix 是一个高质量的德语预训练语料库，通过将最先进的英语预训练数据集翻译成德语构建而成，同时保留其结构和多样性。控制实验表明，在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。

0 人收藏 0 人点赞

#corpus

BOUTEF：北非假新闻的多语言语料库——语言作为武器

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了BOUTEF，一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库，涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。

0 人收藏 0 人点赞

#corpus

阿拉伯女性社会赋权与福祉的受众参与：十年语料库

arXiv cs.CL ↗ · 2026-05-22 缓存

本文介绍了阿拉伯女性与社会语料库，该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子，并包含互动指标，可用于分析性别话语和情感倾向。

0 人收藏 0 人点赞

#corpus

ArabDiscrim：一个关于种族主义与歧视的十年阿拉伯语Facebook语料库

arXiv cs.CL ↗ · 2026-05-22 缓存

ArabDiscrim是一个跨越十年的词汇资源与语料库，包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子，并整合了互动信号、形态正则词族以及歧视轴，旨在支持面向公平性的阿拉伯语自然语言处理研究。

0 人收藏 0 人点赞

#corpus

提升科学论述：科学领域的机器翻译

arXiv cs.CL ↗ · 2026-05-21 缓存

本文介绍了针对西班牙语-英语、法语-英语和葡萄牙语-英语的科学机器翻译平行语料库和单语语料库的开发，涉及四个领域：癌症研究、能源研究、神经科学和交通运输。这些语料库用于微调神经机器翻译系统，以解决科学文本中专业词汇和句法带来的挑战。

0 人收藏 0 人点赞

#corpus

发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Reddit r/MachineLearning ↗ · 2026-05-18

在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库（11种语言，CC0许可），包含约84亿个token，专为多语言研究而构建。

0 人收藏 0 人点赞

corpus

提交意见反馈