大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文系统评估了大语言模型在低资源语言研究中的应用，分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发，以保护语言和文化遗产，同时解决数据可获取性、模型适应性和文化敏感性问题。

arXiv:2412.04497v5 公告类型: 替换摘要：低资源语言是人类历史的宝贵宝库，体现了文化演变和知识多样性。尽管意义重大，但这些语言面临数据稀缺和技术限制等严峻挑战，阻碍了对其的全面研究和保护。大语言模型（LLMs）的最新进展为应对这些挑战提供了变革性机遇，使得在语言、历史和文化研究中采用创新方法成为可能。本研究系统评估了LLMs在低资源语言研究中的应用，涵盖语言变异、历史文献、文化表达和文学分析。通过分析技术框架、当前方法论和伦理考量，本文指出了关键挑战，如数据可获取性、模型适应性和文化敏感性。鉴于低资源语言固有的文化、历史和语言丰富性，本文强调跨学科合作和定制化模型的开发是推动该领域研究的有前景的途径。通过强调人工智能与人文学科结合以保护和研究人类语言文化遗产的潜力，本研究促进了保护知识多样性的全球努力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:31

# 大型语言模型在人文研究中低资源语言的应用机遇与挑战  
来源：https://arxiv.org/abs/2412.04497  
作者：Tianyang Zhong (https://arxiv.org/search/cs?searchtype=author&query=Zhong,+T), Zhenyuan Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Z), Zhengliang Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z), Ruidong Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+R), Weihang You (https://arxiv.org/search/cs?searchtype=author&query=You,+W), Yiheng Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Y), Haiyang Sun (https://arxiv.org/search/cs?searchtype=author&query=Sun,+H), Yi Pan (https://arxiv.org/search/cs?searchtype=author&query=Pan,+Y), Yiwei Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+Y), Yifan Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Y), Hanqi Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+H), Junhao Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+J), Xiang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Tianming Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+T)

查看 PDF (https://arxiv.org/pdf/2412.04497)

> **摘要**：低资源语言是人类历史的宝贵宝库，承载着文化演进与思想多样性。然而，这些语言面临着数据稀缺和技术限制等关键挑战，阻碍了其全面研究与保存。大型语言模型（LLMs）的最新进展为应对这些挑战提供了变革性机遇，使语言学、历史学和文化研究中的创新方法成为可能。本研究系统评估了LLMs在低资源语言研究中的应用，涵盖语言变异、历史文献、文化表达和文学分析等方面。通过分析技术框架、当前方法论及伦理考量，本文指出了数据可获取性、模型适应性和文化敏感性等关键挑战。鉴于低资源语言固有的文化、历史与语言丰富性，本文强调跨学科合作与定制模型开发是推进该领域研究的重要途径。本研究通过彰显人工智能与人文社科融合在保存和研究人类语言文化遗产方面的潜力，推动全球范围内保护思想多样性的努力。

## 提交历史

来自：Zhenyuan Yang [查看邮件](https://arxiv.org/show-email/d325eec7/2412.04497)  
**[\[v1\]](https://arxiv.org/abs/2412.04497v1)** 2024年11月30日（星期六）00:10:56 UTC（2,909 KB）  
**[\[v2\]](https://arxiv.org/abs/2412.04497v2)** 2024年12月9日（星期一）03:00:42 UTC（2,909 KB）  
**[\[v3\]](https://arxiv.org/abs/2412.04497v3)** 2025年9月2日（星期二）08:33:39 UTC（173 KB）  
**[\[v4\]](https://arxiv.org/abs/2412.04497v4)** 2026年1月5日（星期一）05:58:43 UTC（158 KB）  
**\[v5\]** 2026年4月17日（星期五）14:43:11 UTC（158 KB）

大语言模型在低资源语言人文学科研究中的机遇与挑战

相似文章

低资源语言数学教育中的大语言模型：僧伽罗语和泰米尔语研究

论大语言模型的固有可解释性：设计原则和架构调查

大语言模型部署最佳实践

大语言模型可信性无训练方法的系统研究

大语言模型预训练的数据混合：综述与展望

提交意见反馈