corpus

标签

Cards List
#corpus

Darshana Graph:用于比较印度哲学的平行注释语料库,并附带文体测量与探索性图分析

arXiv cs.CL · 4小时前 缓存

本文介绍了Darshana Graph,一个用于比较印度哲学的平行注释语料库,并展示了文体测量与探索性图分析。

0 人收藏 0 人点赞
#corpus

AAbAAC:自身免疫信息提取的标注语料库

arXiv cs.AI · 5天前 缓存

AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。

0 人收藏 0 人点赞
#corpus

HKJudge:一个用于解读法院认定、推理和裁决的法律话语标注语料库

arXiv cs.CL · 2026-06-08 缓存

HKJudge是首个针对香港刑事判决进行句子级专家标注的法律话语语料库,包含两层话语标注体系以及基于BERT和LLM模型的基准评估。

0 人收藏 0 人点赞
#corpus

基于历史文本的预训练语言模型

arXiv cs.CL · 2026-06-03 缓存

本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。

0 人收藏 0 人点赞
#corpus

KletterMix:迈向高质量德语预训练数据

Hugging Face Daily Papers · 2026-06-02

KletterMix 是一个高质量的德语预训练语料库,通过将最先进的英语预训练数据集翻译成德语构建而成,同时保留其结构和多样性。控制实验表明,在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。

0 人收藏 0 人点赞
#corpus

BOUTEF:北非假新闻的多语言语料库——语言作为武器

arXiv cs.CL · 2026-06-02 缓存

本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。

0 人收藏 0 人点赞
#corpus

阿拉伯女性社会赋权与福祉的受众参与:十年语料库

arXiv cs.CL · 2026-05-22 缓存

本文介绍了阿拉伯女性与社会语料库,该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子,并包含互动指标,可用于分析性别话语和情感倾向。

0 人收藏 0 人点赞
#corpus

ArabDiscrim:一个关于种族主义与歧视的十年阿拉伯语Facebook语料库

arXiv cs.CL · 2026-05-22 缓存

ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。

0 人收藏 0 人点赞
#corpus

提升科学论述:科学领域的机器翻译

arXiv cs.CL · 2026-05-21 缓存

本文介绍了针对西班牙语-英语、法语-英语和葡萄牙语-英语的科学机器翻译平行语料库和单语语料库的开发,涉及四个领域:癌症研究、能源研究、神经科学和交通运输。这些语料库用于微调神经机器翻译系统,以解决科学文本中专业词汇和句法带来的挑战。

0 人收藏 0 人点赞
#corpus

发布了免费的980万文档印度语系多语言语料库——印地语、孟加拉语、泰米尔语、泰卢固语及其他7种语言 (CC0许可, HuggingFace) [P]

Reddit r/MachineLearning · 2026-05-18

在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库(11种语言,CC0许可),包含约84亿个token,专为多语言研究而构建。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈