标签
本文介绍了Darshana Graph,一个用于比较印度哲学的平行注释语料库,并展示了文体测量与探索性图分析。
AAbAAC是一个手动标注的语料库,包含115篇PubMed摘要,用于自身免疫信息提取,重点关注自身免疫疾病和自身抗体等实体。研究表明,在该语料库上进行微调后,命名实体识别(NER)性能有所提升。
HKJudge是首个针对香港刑事判决进行句子级专家标注的法律话语语料库,包含两层话语标注体系以及基于BERT和LLM模型的基准评估。
本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。
KletterMix 是一个高质量的德语预训练语料库,通过将最先进的英语预训练数据集翻译成德语构建而成,同时保留其结构和多样性。控制实验表明,在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。
本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。
本文介绍了阿拉伯女性与社会语料库,该语料库收集了十年来超过25万条与女性赋权和社会福祉相关的阿拉伯语Facebook帖子,并包含互动指标,可用于分析性别话语和情感倾向。
ArabDiscrim是一个跨越十年的词汇资源与语料库,包含293K条关于种族主义和歧视的阿拉伯语Facebook帖子,并整合了互动信号、形态正则词族以及歧视轴,旨在支持面向公平性的阿拉伯语自然语言处理研究。
本文介绍了针对西班牙语-英语、法语-英语和葡萄牙语-英语的科学机器翻译平行语料库和单语语料库的开发,涉及四个领域:癌症研究、能源研究、神经科学和交通运输。这些语料库用于微调神经机器翻译系统,以解决科学文本中专业词汇和句法带来的挑战。
在HuggingFace上发布了一个免费的980万文档多语言印度语系语料库(11种语言,CC0许可),包含约84亿个token,专为多语言研究而构建。