探索大语言模型在中文抽象语言掌握中的能力边界
摘要
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
arXiv:2604.15841v1 公告类型:新发布
摘要:虽然大语言模型(LLM)在通用语言任务中取得了显著成功,但它们在抽象语言(中文互联网语境中的代表性亚文化语言)上的表现仍基本未被探索。在本文中,我们介绍了Mouse,一个专门设计的基准测试,用于评估大语言模型在涉及抽象语言的六项自然语言处理任务中的能力。实验结果表明,当前最先进的(SOTA)大语言模型在多项任务上表现出明显的局限性,而在涉及上下文语义理解的任务上表现良好。此外,我们进一步讨论了SOTA大语言模型在抽象语言上总体表现不佳的原因,检验了翻译任务中采用的大语言模型作为评判者的方法是否与人类判断和价值观相一致,并分析了影响抽象语言翻译的关键因素。我们的研究旨在促进自然语言处理社区进一步研究多元文化融合和不断发展的网络语言动态。我们的代码和数据已公开发布。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 探索大语言模型在掌握中文丑象语言中的能力边界 来源:https://arxiv.org/html/2604.15841 林殿庆,兰田11脚注1,朱佳丽11脚注1,李江,韦晨 Aruukhan,刘旭,苏相东,侯红旭,高广来 内蒙古大学计算机学院,中国 [email protected], [email protected] [email protected], [email protected] ###### 摘要 警告:本论文包含可能引起冒犯或伤害的内容 尽管大语言模型(LLM)在通用语言任务中取得了显著成功,但它们在丑象语言上的表现仍然没有被充分探索。丑象语言是中文网络环境中具有代表性的亚文化语言。在本文中,我们介绍了 Mouse,一个专门设计的基准测试,用于评估 LLM 在涉及丑象语言的自然语言处理任务中的能力,包括六个任务。实验结果表明,当前最先进(SOTA)的 LLM 在多项任务上表现出明显的局限性,而在涉及上下文语义理解的任务中表现良好。此外,我们进一步讨论了 SOTA LLM 在丑象语言上性能普遍较低的原因,检验了翻译任务中采用的 LLM 作为评判者的方法是否与人类判断和价值观一致,并分析了影响丑象翻译的关键因素。我们的研究旨在促进自然语言处理社区在多元文化融合和演进互联网语言动态方面的进一步研究。我们的代码和数据公开可得111https://github.com/csdq777/Mouse。 ![[未标注的图像]](https://arxiv.org/html/2604.15841v1/graph/title-icon.png)探索大语言模型在掌握中文丑象语言中的能力边界 林殿庆††致谢:平等贡献,兰田11脚注1,朱佳丽11脚注1,李江,韦晨 Aruukhan,刘旭,苏相东,侯红旭††致谢:通讯作者,高广来 内蒙古大学计算机学院,中国 [email protected], [email protected] [email protected], [email protected] 参考图1:我们提议的 Mouse 基准整体结构。 ## 1 引言 随着社交媒体的广泛使用,网络语言和网络迷因已成为数字平台和日常交流的重要组成部分(Kostadinovska-Stojchevska 和 Shalevska,2018;Vlasos 等,2024)。在中文网络环境中,丑象语言代表了一种独特的语言变体。丑象语言起源于 2015 年左右,最初用作表达消极情感和规避审查的机制。因此,这个术语在历史上带有负面含义。然而,在过去十年中,它已经发生了重大演变。在丑象文化广泛流行的推动下,大量无害内容应运而生。丑象语言因此转变为中立且具有高度象征性的亚文化代码。具有其特定的表达形式,现在被中文青年和在线社区广泛采用。关于丑象文化的更详细描述见附录 A。 丑象语言通常是通过将完全由汉字组成的句子转换为结合文本、表情符号和隐喻元素的表达式而形成的,主要通过同音替换、视觉符号类比和字面语义翻译进行。例如,在表达式"宁可真是个小![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)"(你真是个小聪慧的人)中。字符"宁"作为"你"的同音替代;表情符号"![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)"通过大脑的视觉关联隐喻性地暗示"聪慧";"![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)"保留"鬼"的字面语义。虽然这种表达方式在形式和语义上都显著偏离标准汉语,从而创造了一个非标准的语义空间,但它在共享相同亚文化背景的社区内保持了很高的可理解性。 尽管丑象语言作为中文网络内具有代表性的网络语言在网络和社会中有广泛的影响力,但自然语言处理(NLP)社区中仍然缺少对这一现象的系统分析。特别是,鉴于大语言模型(LLM)近年来在各种自然语言处理任务中的卓越表现(Brown 等,2020;Achiam 等,2023;Liu 等,2024),一个有趣的问题出现了:LLM 在掌握丑象语言方面具有什么能力? 我们认为这个问题很重要,原因有三:首先,从计算社会科学和文化的角度来看,现有的 LLM 和基准测试表现出明显的西方中心偏见,主要反映西方主流价值观(Cao 等,2023;Naous 等,2024;DURMUS 等,2024;Singh 等,2025)。由于语言是文化核心的载体(Wang 等,2024a;Zhang 等,2024;Wang 等,2025,2026),探索丑象语言,即一种典型的非西方亚文化语言变体,是至关重要的。这不仅填补了 LLM 多元文化研究的空白,也对于理解复杂文化背景下的语言实践至关重要。其次,现有关于中文网络语言的研究通常将这类语言现象限制在负面实用性维度,例如有毒语言检测和扰乱语言检测(Xiao 等,2024;Wu 等,2025a;Bai 等,2025;Guo 等,2025)。这种关注忽视了在丑象语言长期演变过程中出现的中立甚至积极功能。这些非负面语义空间仍然很大程度上未被充分探索。最后,虽然以前的研究在中文网络迷因和中文流行语研究中取得了令人印象深刻的进展(Xie 等,2025;Huang 等,2025),但这些只是丑象语言的一个子集。鉴于丑象语言具有更复杂的语义结构和语言特征,本文旨在填补这一研究空白。我们努力为 NLP 社区构建一个更全面的丑象语言分析框架,从而促进对此类在线语言现象的更深入理解。 为了填补这一空白,我们推出了 Mouse,这是一个基准测试,用于评估 LLM 在丑象语言方面的六个任务中的精通程度。我们的结果表明,虽然这些 LLM 对上下文信息表现出一定的理解,但它们在处理其他方面时遇到困难。此外,我们进行了详细的分析,希望我们的研究能为关注亚文化语言的 NLP 社区的发展做出贡献。 总之,本文的主要贡献如下: - •亚文化形式化:我们向 NLP 社区介绍了丑象语言,这是一种独特的网络亚文化语言。 - •评估基准:我们提出了 Mouse,这是第一个为丑象语言量身定制的 LLM 评估基准。由六个 NLP 任务组成,旨在评估 LLM 对这种亚文化语言的处理能力。 - •实验分析:我们对 SOTA LLM 进行了大量实验。此外,我们分析了其性能背后的潜在因素,并为未来的研究提供了见解。 ## 2 预备知识 | 成分 | 原始文本 | 推导逻辑 | 标准汉语 | 英文参考 | |------|---------|--------|---------|---------| | 同音 | 主包 (zhǔ bāo) | 近同音替换 | 主播 (zhǔ bō) | Streamer | | | 91安![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)上![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)→牌 (pái)→排 (pái) | 91安排上 | Arrange you with 91 | | 视觉 | 彳亍口巴 | 汉字结构分解 | 行吧 (xíng ba) | That's OK | | | 我扬了你![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)灰 | 图像隐喻 (![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)→骨) | 我扬了你骨灰 | Scatter your ashes | | | ¿e ua m i u onh si u | 拼音倒序 | 你说你妈呢 | What the hell are you talking about | | 语义 | 踩到![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)皮 | 直接符号字面意义 | 踩到香蕉皮 | Step on a banana peel | | | 滚粗克 (gǔn cū kè) | 方言调寄变换 | 滚出去 (gǔn chū qù) | Get out | 表 1:丑象语言三个代表性成分中的典型示例。 ### 2.1 丑象语言的定义 丑象语言是中文网络语言的一种独特变体。它是中文网络亚文化的具体表现。其核心机制整合了多种元素,例如特殊字符、同音字、拼音首字母缩写、方言、表情符号、汉字偏旁组合和网络迷因(Chen,2021)。丑象语言的特点是其隐含的性质,其含义是被感受而不是明确陈述的,它作为一种亚文化沟通方式发挥作用,强调情感传达而非字面信息。 ### 2.2 分类法 为了系统地分析丑象语言的复杂性并阐明其基础逻辑,我们将其分为两个维度:表征成分和意图。这种细粒度的分类法为我们后续的评估提供了理论基础。通过联合建模语言结构和实用功能,该分类法实现了对模型能力的更全面评估。 #### 2.2.1 丑象语言的表征成分 先前的研究(Chen,2021)主要根据丑象语言的起源将其分为符号、同音字、方言和迷因。虽然这些分类记录了早期的语言现象,但它们表现出明显的特征重叠,无法捕捉最近更具解构性的实践。因此,我们从符号表示的角度提出了一个系统的表征成分分类(Shelestiuk,2003)。我们将这些成分分为三个核心维度:同音、视觉和语义。在这个框架内,单个句子可能同时展现多个维度的特征。三个表征成分的示例可以在表 1 中找到。 ##### 同音成分 这个维度利用了汉语的音韵冗余性。用户通过使用汉字、字母数字符号或多阶段"图像-名称-同音"映射链进行同音替换来构造丑象表达式。这个过程将目标词汇映射到发音相同或相似的字符。 ##### 视觉成分 利用汉字的表意性质和表情符号的象形特性,这个成分通过几何结构、部首和其他图像符号以及表情符号利用视觉类比。它通过三种机制表现:(1)字符分解,将字形分解为组成部首以增加文本的离散性;(2)视觉隐喻,字符和表情符号基于直观的视觉关联进行语义扩展;以及(3)几何变换,涉及倒置或变形的排版以掩盖敏感内容。 ##### 语义成分 这个维度关注意义层次的映射。它包括(1)符号字面意义,使用表情符号的直接或社会共享含义,以及(2)方言借用,利用地域发音或书写变体来增加幽默感或改变风格,同时保留核心含义。 #### 2.2.2 丑象语言的意图 在当代社交媒体中,丑象语言不仅充当身份标记,而且作为多种交流意图的载体,类似于自然语言。这些交流行为包括但不限于:对特定事件的评论(例如讽刺或赞扬)、直接的情感表达(例如发泄愤怒或无助)、基本事实陈述以及亚文化特征的幽默和迷因。此外,在特定背景下,它展现了面向行动的指令或作为隐性性参考的工具。 随着丑象语言进入更广泛的使用,分析必须超越表面符号,并考虑其在社会互动和行为意图中的作用。因此,我们将这些意图分为八个不同的类别:评论(例如抱怨、赞扬)、情感表达、一般陈述、性化参考、开玩笑与迷因、群体身份、敦促和其他。 | 属性 | 示例(中文) | 示例(英文) | |------|-----------|----------| | 原始文本 | 小![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)汁你8要命![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf) | N/A | | 参考 | 小伙子你不要命了 | Young man, are you out of your mind? | | 表征成分 | 谐音 | Homophonic | | 意图 | 评价(吐槽,赞扬等) | Comments (criticisms, praises, etc.) | | 毒性 | 0 | 0 | 表 2:CXEI 中每个属性的中文和英文示例。转换过程如下:![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)→火 (huǒ)→伙 (huǒ);汁 (zhī)→子 (zi);8→八 (bā)→不 (bù);以及![[未标注的图像]](https://arxiv.org/html/2604.15841v1/all-twemojis.pdf)→辣椒 (là jiāo)→辣 (là)→了 (le)。 ### 2.3 丑象语言评估实例 受 McBE(Lan 等,2025b)的启发,我们将丑象语言评估实例(CXEI)整合到 Mouse 中,这是一个结构化的评估概念。作为我们基准的核心单位,CXEI 能够对模型处理丑象语言的性能进行详细评估。Mouse 总共包含 1,099 个 CXEI。每个 CXEI 的特征如下: ##### 原始文本 丑象语言的原始文本,通常由表情符号、汉字、拉丁字母、标点符号和其他字符的混合组成。 ##### 参考 相应的仅由汉字组成的文本,作为翻译。 ##### 表征成分 这些分为三种类型:同音、视觉和语义。 ##### 意图 这些类别包括评论(例如抱怨、赞扬)、情感表达、一般陈述、性化参考、幽默与迷因、敦促、群体身份和其他。 ##### 毒性 一个二进制标签,指示文本是否包含有毒内容(有毒标记为 1,否则标记为 0)。 一个例子是
相似文章
使用大语言模型自动标注汉语叙事转录文本
本文评估了使用大语言模型自动标注汉语口语叙事宏观结构的效果,发现最佳模型在降低65%标注时间的同时,达到了接近人类水平的可靠性,但在语义复杂或词汇多样的叙事文本上性能有所下降。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
GaoYao基准:全面评估大模型多语言与多文化能力的新框架
GaoYao发布18.2万样本、覆盖26种语言与51个地区的基准,系统评测大模型多语言与多文化能力,首次揭示显著地域性能差异。
LingxiDiagBench:一个用于中文精神科咨询与诊断中LLM评估的多智能体基准框架
介绍了LingxiDiagBench,这是一个大规模多智能体基准,用于评估LLM在中文精神科咨询与诊断中的表现。关键发现表明:二分类任务上准确率高(最高达92.3%),但多分类鉴别诊断性能较差(抑郁-焦虑共病识别43.0%,12类鉴别诊断28.5%),揭示了对话质量与诊断准确性之间的脱节。