从零构建阿拉伯语NLP：二十年的经验、失败与未解难题

arXiv cs.CL 2026/05/21 04:00 论文

摘要

全面回顾二十年阿拉伯语NLP研究，探讨该领域的经验、失败与未解难题。

arXiv:2605.20786v1 公告类型: 新论文摘要：本文回顾了二十年来为阿拉伯语构建NLP资源与研究基础设施的历程。阿拉伯语有数亿使用者，但历史上相比英语或中文等语言，其资源建设长期不足。第一个十年聚焦于基础语言基础设施；第二个十年转向计算社会科学、社交媒体分析和社会导向型应用。本文并非逐一罗列产出成果，而是探讨建设过程中的经验启示。文中提炼出三条反直觉的经验：数据集构建既是技术过程也是社会过程；围绕共有任务形成的社区往往比任务本身更重要；从语言资源转向计算社会科学所暴露的挑战，是传统NLP训练无法解决的。我们讨论了三个失败案例：一个从未进入临床实践的抑郁症检测语料库；一段时期分散参与过多共享任务而缺乏深度；以及长期假设现代标准阿拉伯语基础设施能直接迁移到方言任务。这些经验表明，为资源不足社群开发NLP的最大难题并非语言本身，而是社会、制度与认知层面的挑战，需要该领域鲜少传授的能力。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:35

# 从零构建阿拉伯语自然语言处理：二十年的经验、失败与开放问题
来源：https://arxiv.org/abs/2605.20786  
书目工具

## 书目与引用工具

文献浏览器 切换

代码、数据、媒体

## 本文相关的代码、数据与媒体

演示

## 演示

相关论文

## 推荐与搜索工具

关于arXivLabs

## arXivLabs：与社区合作者的实验项目

arXivLabs 是一个框架，允许合作者直接在 arXiv 网站上开发和分享新的实验性功能。  
与 arXivLabs 合作的个人和组织都接受并认同我们的价值观：开放、社区、卓越和用户数据隐私。arXiv 致力于这些价值观，只与遵守这些价值观的合作伙伴合作。  
您是否有一个能为 arXiv 社区增添价值的项目创意？**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。

从零构建阿拉伯语NLP：二十年的经验、失败与未解难题

相似文章

文字穿越时间：转写在NLP中演化的全景综述

大型音频语言模型综述：泛化、可信度与展望

超越选择题：带有方言变体的开放式阿拉伯文化问答基准

ArabDiscrim：一个关于种族主义与歧视的十年阿拉伯语Facebook语料库

@Tabbu_ai: https://x.com/Tabbu_ai/status/2058145123444347339

提交意见反馈