大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL 论文

摘要

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

arXiv:2412.04497v5 公告类型: 替换 摘要:低资源语言是人类历史的宝贵宝库,体现了文化演变和知识多样性。尽管意义重大,但这些语言面临数据稀缺和技术限制等严峻挑战,阻碍了对其的全面研究和保护。大语言模型(LLMs)的最新进展为应对这些挑战提供了变革性机遇,使得在语言、历史和文化研究中采用创新方法成为可能。本研究系统评估了LLMs在低资源语言研究中的应用,涵盖语言变异、历史文献、文化表达和文学分析。通过分析技术框架、当前方法论和伦理考量,本文指出了关键挑战,如数据可获取性、模型适应性和文化敏感性。鉴于低资源语言固有的文化、历史和语言丰富性,本文强调跨学科合作和定制化模型的开发是推动该领域研究的有前景的途径。通过强调人工智能与人文学科结合以保护和研究人类语言文化遗产的潜力,本研究促进了保护知识多样性的全球努力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 大型语言模型在人文研究中低资源语言的应用机遇与挑战  
来源:https://arxiv.org/abs/2412.04497  
作者:Tianyang Zhong (https://arxiv.org/search/cs?searchtype=author&query=Zhong,+T), Zhenyuan Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Z), Zhengliang Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z), Ruidong Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+R), Weihang You (https://arxiv.org/search/cs?searchtype=author&query=You,+W), Yiheng Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Y), Haiyang Sun (https://arxiv.org/search/cs?searchtype=author&query=Sun,+H), Yi Pan (https://arxiv.org/search/cs?searchtype=author&query=Pan,+Y), Yiwei Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+Y), Yifan Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Y), Hanqi Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+H), Junhao Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+J), Xiang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Tianming Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+T)

查看 PDF (https://arxiv.org/pdf/2412.04497)

> **摘要**:低资源语言是人类历史的宝贵宝库,承载着文化演进与思想多样性。然而,这些语言面临着数据稀缺和技术限制等关键挑战,阻碍了其全面研究与保存。大型语言模型(LLMs)的最新进展为应对这些挑战提供了变革性机遇,使语言学、历史学和文化研究中的创新方法成为可能。本研究系统评估了LLMs在低资源语言研究中的应用,涵盖语言变异、历史文献、文化表达和文学分析等方面。通过分析技术框架、当前方法论及伦理考量,本文指出了数据可获取性、模型适应性和文化敏感性等关键挑战。鉴于低资源语言固有的文化、历史与语言丰富性,本文强调跨学科合作与定制模型开发是推进该领域研究的重要途径。本研究通过彰显人工智能与人文社科融合在保存和研究人类语言文化遗产方面的潜力,推动全球范围内保护思想多样性的努力。

## 提交历史

来自:Zhenyuan Yang [查看邮件](https://arxiv.org/show-email/d325eec7/2412.04497)  
**[\[v1\]](https://arxiv.org/abs/2412.04497v1)** 2024年11月30日(星期六)00:10:56 UTC(2,909 KB)  
**[\[v2\]](https://arxiv.org/abs/2412.04497v2)** 2024年12月9日(星期一)03:00:42 UTC(2,909 KB)  
**[\[v3\]](https://arxiv.org/abs/2412.04497v3)** 2025年9月2日(星期二)08:33:39 UTC(173 KB)  
**[\[v4\]](https://arxiv.org/abs/2412.04497v4)** 2026年1月5日(星期一)05:58:43 UTC(158 KB)  
**\[v5\]** 2026年4月17日(星期五)14:43:11 UTC(158 KB)

相似文章

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

大语言模型部署最佳实践

OpenAI Blog

Cohere、OpenAI 和 AI21 Labs 联合发布了大语言模型开发和部署的初步最佳实践,涵盖使用指南、安全措施、偏差缓解、文档、多元化团队和伦理劳动标准。

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混