语言、地点和社交媒体:新西兰的地理方言对齐
摘要
一项论文研究,调查新西兰地理方言在基于地点的社交媒体社区中的对齐情况,通过分析词汇、形态句法和语义特征,探讨Reddit社区如何反映地理方言社区的语言变异模式。
arXiv:2604.15744v1 Announce Type: new
Abstract: 本论文研究了地理方言在地点信息社交媒体社区中的对齐情况,重点关注与新西兰相关的Reddit社区。通过整合用户感知的定性分析与计算方法,该研究基于用户认知的词汇、形态句法和语义变量,探讨语言使用如何反映地点身份和语言变异与变化的模式。研究结果表明,用户通常将语言与地点相关联,地点相关社区形成连贯的言语社区,但地理方言社区与地点相关社区之间的对齐仍然复杂。先进的语言模型(包括静态和历时Word2Vec语言嵌入)揭示了跨地点社区的语义变异和新西兰英语内的有意义的语义转变。该研究创建了一个包含42.6亿个未处理词汇的语料库,为未来研究提供了宝贵资源。总体而言,研究结果强调了社交媒体作为社会语言学研究自然实验室的潜力。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 目录 来源:https://arxiv.org/html/2604.15744
\\标题 语言、地点与社交媒体:新西兰地理方言对齐
\\作者 Sidney Gig-Jan Wong
\\年份 2026
\\主任 Dr Benjamin Adams
\\部门 计算机科学与软件工程系,坎特伯雷大学
\\主任 Dr Jonathan Dunn
\\部门 语言学系,伊利诺伊大学厄巴纳-香槟分校
\\主任 Dr Kong Meng Liew
\\部门 心理学、言语与听力学院,坎特伯雷大学
\\主任 Professor Jen Hay
\\部门 语言学系,坎特伯雷大学
\\prelimpages
\\quoteslip 变异和变化是人类语言的基本属性,这些动态系统中观察到的新兴模式是系统化和有意义的。尽管社会语言学家的关注传统上集中在口语上,但计算机中介交流(CMC)和社交媒体的出现表明,书面语言同样揭示了结构化的变异和变化模式。作为社交网络,社交媒体平台可作为研究社会身份与语言使用相互作用的"自然实验室"。虽然社交媒体方言学不是一个新研究领域,但在数字领域探索变异和变化仍有令人信服的实际原因。随着自然语言处理(NLP)的最新进展,人们越来越意识到地理参照社交媒体语言数据对底层人口的代表程度如何。这一需求对于资源匮乏的相似语言、语言变体和方言尤为突出,这些地方的数据可用性通常有限。作为语言学中的跨学科问题,我在计算社会语言学框架内重新审视这一问题,旨在理解基于地点的社交媒体网络与底层地理方言社区语言背景的对齐程度。我将这一现象称为地理方言对齐。以新西兰的社会语言学背景和 Reddit 社区为重点,我的主要研究问题是:在基于地点的社交媒体社区中,我们在多大程度上能够观察到地理方言对齐?更具体地说,数字社区是否反映了与地理定义的方言社区内及社区间观察到的语言变异和变化模式相似的模式?我的研究特别关注空间的社会构建——概念化为地点——在塑造语言变异和变化中的作用,以及 Reddit 用户的认知。这两个方面在社交媒体方言学中仍未被充分探索。为了填补这一空白,我探讨了以下次要研究问题:1)基于地点的社区中的用户是否将语言使用与地点身份关联起来?2)地理方言社区与基于地点的社区之间是否存在关系?3)与地点相关的社区是否形成连续的言语社区?
在第一阶段,我从 r/newzealand 中选择了帖子提交样本——与新西兰相关的主要基于地点的社区——并识别了两个专门关注新西兰英语和本地语言使用的自发帖。对于定性分析,我采用了话语分析来确定这些帖子中的情境意义。这项分析的目的是将语言生产者与其话语重新连接,在量化前人性化数据。随后,我对相关评论线程应用了主题分析,策划了包含 51 个词汇、3 个形态句法和 13 个语义特征的用户知情清单。
在第二阶段,我分析了这些用户知情的词汇和形态句法特征在 Reddit 上六个国家级基于地点的社区中的分布,以评估用户直觉的准确性。研究结果表明,虽然用户直觉在很大程度上与数据不一致,但这些特征的分布在国家级社区中保持系统化和有意义。此外,非语言用户行为——特别是时间参与模式——成为识别非本地用户的重要指标,这些用户的出现通常与创新变体的增加相关联。
在第三阶段,我探索了用于检测 Reddit 上基于地点的社区中语言变异的替代计算方法。与现有文献一致,传统文本分类方法在国家和城市水平上识别潜在语言变异都证明无效。然而,先进的语言建模技术——特别是 Word2Vec 嵌入——促进了用户知情语义变量中的变异检测。通过使用余弦相似度比较在离散基于地点的社区上训练的词向量表示,我能够量化数字景观中的语义移位和地理对齐程度。
在第四个也是最后阶段,我扩展了语料库以包含更广泛的新西兰相关社区网络。通过从 r/NZMetaHub 识别用户知情建议,我从 Pushshift 存储库中纳入了额外的 32 个 subreddits。利用计算构造语法,我确认这些社区维持高度的语法相似性。随后我检查了 13 个用户知情语义变量中的通时语义移位。虽然只有三个变量展现了预期的移位,但"chippy"(从"薯片"过渡到前总理的昵称)和"snapper"(从"交通卡"转回"鱼种")的结果表明,通时嵌入模型成功捕获了新西兰社会语言学背景独有的语义变化。
基于我对用户知情词汇、形态句法和语义变量的分析,研究结果表明,在新西兰相关 subreddits 的基于地点的社交媒体社区中可观察到地理方言对齐。关于次要研究问题,我发现基于地点的社区中的用户普遍将特定语言使用与独特的地点身份相关联,这些数字社区倾向于形成连续的言语社区。然而,当通过用户知情变量评估时,既定地理方言社区与其数字对应物之间的关系并不直接,表明传统地域主义与新兴数字规范的复杂分层。
这项研究的一些局限性源于对用户知情变量的依赖,这固有地塑造了分析的方向和范围。额外的约束包括特定区域子集中的数据稀疏性和分析管道中引入的潜在模型偏差。一个重要的理论限制是对传统社会语言学框架的参与受限;这反映了该领域更广泛的历史性对口语的强调,这使得将既定理论直接应用于计算机中介数据变得复杂。为了缓解这一点,我优先考虑了方法论的严谨性和稳健计算管道的开发,目的是在未来研究中弥合这一理论差距。
该论文通过引入基于地点的社交媒体方言学和实现先进语言建模技术对该领域做出了多项独特贡献。通过整合用户认知来评估语言变异和变化程度,这项工作解决了关于数字方言的现有文献中的关键空白。此外,这项研究产生了一个全面的新西兰相关 Reddit 社区语料库——包含 4.26 亿未处理词汇——为未来的社会语言学和计算研究提供了宝贵资源。
在未来研究方面,利用最先进的基于变压器的大型语言模型(LLMs)来通过上下文嵌入检查语义移位存在重大潜力,尽管此类方法在计算资源上仍然密集。还有一个关键机会来开发新西兰英语的专门 NLP 基准,以改善本地变体上的模型性能。进一步方向包括将此方法扩展到额外平台——如 Twitter/X——和扩展到多模态分析(整合口语数据)。最后,社交媒体上的感知方言学代表了一个有前景的途径来理解元语言意识,尤其是当研究人员对平台数据的访问继续演变时。
\\public 该论文调查了基于地点的社交媒体社区中的地理方言对齐,重点关注新西兰相关的 Reddit 社区。通过整合用户认知的定性分析与计算方法,该研究检查了语言使用如何基于用户知情的词汇、形态句法和语义变量反映地点身份和语言变异与变化模式。研究结果显示,用户普遍将语言与地点相关联,基于地点的社区形成连续的言语社区,尽管地理方言社区与基于地点的社区之间的对齐仍然复杂。包括静态和通时 Word2Vec 语言嵌入在内的先进语言建模揭示了基于地点的社区中的语义变异和新西兰英语中有意义的语义移位。该研究涉及创建包含 4.26 亿未处理词汇的语料库,为未来研究提供了宝贵资源。总体而言,结果突出了社交媒体作为社会语言学研究自然实验室的潜力。
###### 目录
1. 1 绪论 (https://arxiv.org/html/2604.15744#Ch1)
1. 1.1 章节概述 (https://arxiv.org/html/2604.15744#Ch1.S1)
2. 1.2 引言 (https://arxiv.org/html/2604.15744#Ch1.S2)
3. 1.3 目的和目标 (https://arxiv.org/html/2604.15744#Ch1.S3)
1. 1.3.1 更广泛的应用 (https://arxiv.org/html/2604.15744#Ch1.S3.SS1)
4. 1.4 研究问题 (https://arxiv.org/html/2604.15744#Ch1.S4)
1. 1.4.1 次要研究问题 (https://arxiv.org/html/2604.15744#Ch1.S4.SS1)
5. 1.5 研究阶段 (https://arxiv.org/html/2604.15744#Ch1.S5)
6. 1.6 系统要求 (https://arxiv.org/html/2604.15744#Ch1.S6)
7. 1.7 数据可用性 (https://arxiv.org/html/2604.15744#Ch1.S7)
8. 1.8 概述 (https://arxiv.org/html/2604.15744#Ch1.S8)
9. 2 文献综述 (https://arxiv.org/html/2604.15744#Ch2)
1. 2.1 章节概述 (https://arxiv.org/html/2604.15744#Ch2.S1)
10. 2.2 引言 (https://arxiv.org/html/2604.15744#Ch2.S2)
11. 2.3 语言变异和变化 (https://arxiv.org/html/2604.15744#Ch2.S3)
1. 2.3.1 方言学 (https://arxiv.org/html/2604.15744#Ch2.S3.SS1)
2. 2.3.2 社会语言学 (https://arxiv.org/html/2604.15744#Ch2.S3.SS2)
3. 2.3.3 总结 (https://arxiv.org/html/2604.15744#Ch2.S3.SS3)
12. 2.4 社交媒体自然语言处理 (https://arxiv.org/html/2604.15744#Ch2.S4)
1. 2.4.1 语言的计算模型 (https://arxiv.org/html/2604.15744#Ch2.S4.SS1)
2. 2.4.2 Twitter:数字广场 (https://arxiv.org/html/2604.15744#Ch2.S4.SS2)
3. 2.4.3 总结 (https://arxiv.org/html/2604.15744#Ch2.S4.SS3)
13. 2.5 语言在地点构建中的作用 (https://arxiv.org/html/2604.15744#Ch2.S5)
1. 2.5.1 地理视角 (https://arxiv.org/html/2604.15744#Ch2.S5.SS1)
2. 2.5.2 语言学视角 (https://arxiv.org/html/2604.15744#Ch2.S5.SS2)
3. 2.5.3 社会理论视角 (https://arxiv.org/html/2604.15744#Ch2.S5.SS3)
4. 2.5.4 总结 (https://arxiv.org/html/2604.15744#Ch2.S5.SS4)
14. 2.6 新西兰社会语言学背景 (https://arxiv.org/html/2604.15744#Ch2.S6)
1. 2.6.1 新西兰英语特征 (https://arxiv.org/html/2604.15744#Ch2.S6.SS1)
2. 2.6.2 语言、方言、口音 (https://arxiv.org/html/2604.15744#Ch2.S6.SS2)
3. 2.6.3 态度和意识形态 (https://arxiv.org/html/2604.15744#Ch2.S6.SS3)
15. 2.7 章节总结 (https://arxiv.org/html/2604.15744#Ch2.S7)
16. 3 语料库维度 (https://arxiv.org/html/2604.15744#Ch3)
1. 3.1 章节概述 (https://arxiv.org/html/2604.15744#Ch3.S1)
17. 3.2 Reddit:互联网首页 (https://arxiv.org/html/2604.15744#Ch3.S2)
1. 3.2.1 为什么选择 Reddit? (https://arxiv.org/html/2604.15744#Ch3.S2.SS1)
2. 3.2.2 新西兰 Reddit (https://arxiv.org/html/2604.15744#Ch3.S2.SS2)
18. 3.3 情境特征 (https://arxiv.org/html/2604.15744#Ch3.S3)
1. 3.3.1 参与者 (https://arxiv.org/html/2604.15744#Ch3.S3.SS1)
2. 3.3.2 参与者间关系 (https://arxiv.org/html/2604.15744#Ch3.S3.SS2)
3. 3.3.3 频道 (https://arxiv.org/html/2604.15744#Ch3.S3.SS3)
4. 3.3.4 生成环境 (https://arxiv.org/html/2604.15744#Ch3.S3.SS4)
5. 3.3.5 设置 (https://arxiv.org/html/2604.15744#Ch3.S3.SS5)
6. 3.3.6 交流目的 (https://arxiv.org/html/2604.15744#Ch3.S3.SS6)
7. 3.3.7 主题 (https://arxiv.org/html/2604.15744#Ch3.S3.SS7)
19. 3.4 数据来源 (https://arxiv.org/html/2604.15744#Ch3.S4)
20. 3.5 数据处理 (https://arxiv.org/html/2604.15744#Ch3.S5)
21. 3.6 章节总结 (https://arxiv.org/html/2604.15744#Ch3.S6)
22. 4 用户直觉与地点身份 (https://arxiv.org/html/2604.15744#Ch4)
1. 4.1 章节概述 (https://arxiv.org/html/2604.15744#Ch4.S1)
23. 4.2 背景与动机 (https://arxiv.org/html/2604.15744#Ch4.S2)
24. 4.3 抽样策略 (https://arxiv.org/html/2604.15744#Ch4.S3)
25. 4.4 话语分析 (https://arxiv.org/html/2604.15744#Ch4.S4)
1. 4.4.1 方法 (https://arxiv.org/html/2604.15744#Ch4.S4.SS1)
2. 4.4.2 自发帖 1 (https://arxiv.org/html/2604.15744#Ch4.S4.SS2)
3. 4.4.3 自发帖 2 (https://arxiv.org/html/2604.15744#Ch4.S4.SS3)
26. 4.5 中间总结 (https://arxiv.org/html/2604.15744#Ch4.S5)
27. 4.6 内容分析 (https://arxiv.org/html/2604.15744#Ch4.S6)
1. 4.6.1 方法 (https://arxiv.org/html/2604.15744#Ch4.S6.SS1)
2. 4.6.2 文化内疚与民族自豪 (https://arxiv.org/html/2604.15744#Ch4.S6.SS2)
3. 4.6.3 语言变异和变化 (https://arxiv.org/html/2604.15744#Ch4.S6.SS3)
28. 4.7 讨论 (https://arxiv.org/html/2604.15744#Ch4.S7)
29. 4.8 结论和关键发现 (https://arxiv.org/html/2604.15744#Ch4.S8)
30. 5 用户知情的社会语言学变量 (https://arxiv.org/html/2604.15744#Ch5)
1. 5.1 章节概述 (https://arxiv.org/html/2604.15744#Ch5.S1)
31. 5.2 背景与动机 (https://arxiv.org/html/2604.15744#Ch5.S2)
32. 5.3 方法 (https://arxiv.org/html/2604.15744#Ch5.S3)
1. 5.3.1 数据 (https://arxiv.org/html/2604.15744#Ch5.S3.SS1)
2. 5.3.2 社会语言学变量 (https://arxiv.org/html/2604.15744#Ch5.S3.SS2)
3. 5.3.3 特征提取 (https://arxiv.org/html/2604.15744#Ch5.S3.SS3)
4. 5.3.4 评估 (https://arxiv.org/html/2604.15744#Ch5.S3.SS4)
33. 5.4 结果 (https://arxiv.org/html/2604.15744#Ch5.S4)
1. 5.4.1 词汇变量 (https://arxiv.org/html/2604.15744#Ch5.S4.SS1)
2. 5.4.2 形态句法变量 (https://arxiv.org/html/2604.15744#Ch5.S4.SS2)
34. 5.5 讨论 (https://arxiv.org/html/2604.15744#Ch5.S5)
35. 5.6 章节总结 (https://arxiv.org/html/2604.15744#Ch5.S6)
36. 6 方言建模与语言嵌入 (https://arxiv.org/html/2604.15744#Ch6)
1. 6.1 章节概述 (https://arxiv.org/html/2604.15744#Ch6.S1)
37. 6.2 背景与动机 (https://arxiv.org/html/2604.15744#Ch6.S2)
38. 6.3 数据 (https://arxiv.org/html/2604.15744#Ch6.S3)
39. 6.4 分类模型 (https://arxiv.org/html/2604.15744#Ch6.S4)
1. 6.4.1 方法 (https://arxiv.org/html/2604.15744#Ch6.S4.SS1)
2. 6.4.2 国家级社区 (https://arxiv.org/html/2604.15744#Ch6.S4.SS2)相似文章
社交媒体中的语言距离:不同年龄群体情绪调节的指标
本文利用社交媒体文本研究语言距离作为不同年龄群体情绪调节的指标,发现语言距离随年龄增长而增加,这与老年人幸福感提升的研究结果一致。
并列比较加剧语言模型中的方言偏见
该研究发现,语言模型在并列比较标准美式英语和非裔美国人白话英语时,会表现出更强的方言偏见,即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见,但在对比设置中并不一致。
当英语改写本地知识:大语言模型中的全球叙事主导
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
表达社会情感:大语言模型与人类文化情感规范的错位
本研究论文考察了大语言模型表达社会情感的方式与人类文化规范的匹配度,发现两者存在系统性错位。与人类回应相比,大语言模型在不同文化身份(欧美裔美国人与拉美裔美国人)下表现出的参与型与抽离型情感表达模式不一致。
找不到地点:揭示多语言 LLM 中的隐式本地与全球偏见
Google Research 发布覆盖 12 种语言的 LocQA 数据集,发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。