linguistics

#linguistics

语法负责工作：跨Universal Dependencies的功能性与词汇性依存长度最小化

arXiv cs.CL ↗ · 昨天缓存

本文分析了122种语言，表明依存长度最小化在功能性依存（短且不变）与词汇性依存（较长且可变）上的作用不同，这表明语法为语言处理提供了局部支撑。

0 人收藏 0 人点赞

#linguistics

Svarna：一个面向现代希腊语的开源语料库工作台

arXiv cs.CL ↗ · 2天前缓存

Svarna 是一个面向现代希腊语的开源网络语料库工作台，整合了多个数据库，包含超过 5.07 亿词，并提供多种语言分析工具，采用 MIT 许可证发布。

0 人收藏 0 人点赞

#linguistics

研究揭示读唇时人们看到的内容

Hacker News Top ↗ · 3天前缓存

堪萨斯大学的研究人员利用网络科学绘制了英语口语词汇的视觉相似性，发现大约三分之一的单词在读唇时看起来至少与另一个单词相似。这项研究提供了关于常见读唇错误的见解，并可能改善人类和人工智能读唇系统的训练。

0 人收藏 0 人点赞

#linguistics

当Transformer学习"不可能"语言时，它们学到了什么？

arXiv cs.CL ↗ · 3天前缓存

本文研究Transformer语言模型如何学习具有非自然属性的'不可能'语言，发现虽然语法敏感性逐渐下降，但生成能力表现出显著失败，从而提出了未证实语言的链接假说。

0 人收藏 0 人点赞

#linguistics

@sentient_agency: 10款由大学构建的免费工具，击败大多数付费SaaS 把它们全部收藏起来。大学默默资助的软件…

X AI KOLs Timeline ↗ · 2026-06-27 缓存

一条推文重点介绍了10款由大学开发的免费开源软件工具，这些工具的性能优于或堪比昂贵的付费替代品，涵盖参考文献管理、文本分析、网络可视化、地理信息系统、统计学、语音分析、生物网络、数据清理、研究存档和笔记记录。

0 人收藏 0 人点赞

#linguistics

对北京话和台湾话口语语料库的语音和语义分析表明，轻声是一个词调

arXiv cs.CL ↗ · 2026-06-26 缓存

本文介绍了一项基于语料库的研究，通过对北京话和台湾话口语语料库的语音和语义分析，使用广义加性模型和上下文嵌入，表明普通话中的轻声是一个具有自身调目标的词调。

0 人收藏 0 人点赞

#linguistics

MorfFlex：处理丰富的形态学

arXiv cs.CL ↗ · 2026-06-24 缓存

本文介绍了MorfFlex，一种适用于具有丰富屈折和派生形态的语言的形态词典架构，以捷克语的MorfFlex CZ为例，该词典包含超过1亿个词形，支持标注一致性和NLP工具。

0 人收藏 0 人点赞

#linguistics

AI工程师声称破解了Linear A（6分钟阅读）

TLDR AI ↗ · 2026-06-22 缓存

Tom Di Mino，一位AI工程师兼业余语言学家，声称破译了超过一个世纪以来让专家们束手无策的古代米诺斯文字Linear A。他的解决方案将Linear A映射到一种已灭绝的闪米特语言，目前正由罗格斯大学和剑桥大学的语言学专家审查。

0 人收藏 0 人点赞

#linguistics

翻译不可译之物：一个可操作化的不可译性本体论

arXiv cs.CL ↗ · 2026-06-17 缓存

本文提出了机器翻译中不可译性的结构化本体论，以及补偿策略的分类法和多语言数据集。人类偏好研究表明，翻译质量取决于所使用的策略，且对解释性翻译存在一致偏好。

0 人收藏 0 人点赞

#linguistics

语言学奥林匹克竞赛：迈向语言学研究的新语料库？

arXiv cs.CL ↗ · 2026-06-15 缓存

本文提出利用语言学奥林匹克竞赛数据构建新的语言学研究语料库，旨在推动该领域发展。

0 人收藏 0 人点赞

#linguistics

Transformer之药

Reddit r/ArtificialInteligence ↗ · 2026-06-12

对Transformer架构在大型语言模型之外广泛影响的反思，包括对语言学、遗传学和因果建模的潜在影响，并将其意义与哈伯-博世法相提并论。

0 人收藏 0 人点赞

#linguistics

大语言模型作为语言学中的模态模型

arXiv cs.CL ↗ · 2026-06-10 缓存

本文运用科学哲学框架论证，大语言模型作为最小模型在语言学中具有认识论价值，可用于提供可能性解释，但尚不足以构成对人类语言的实际性解释。

0 人收藏 0 人点赞

#linguistics

词类表征从基于自然语言训练的后继表征中自发涌现

arXiv cs.CL ↗ · 2026-05-26 缓存

本文将从强化学习中继承的后继表征应用于自然语言，训练神经网络预测未来词的期望分布。研究表明，词性、词汇子类等语言类别无需显式监督即可自发涌现。

0 人收藏 0 人点赞

#linguistics

基于理论语言学专家标准的习语性数据驱动方法

arXiv cs.CL ↗ · 2026-05-20 缓存

本文基于16项理论标准，对多词表达（MWEs）进行数据驱动分析，并由语言学专家进行标注，发现没有完全习语化的表达，且词汇标准影响最大。

0 人收藏 0 人点赞

#linguistics

DiscoExplorer：多语言篇章关系研究的开放接口

arXiv cs.CL ↗ · 2026-05-18 缓存

介绍 DiscoExplorer，一个用于搜索和可视化跨16种语言的篇章关系数据集的开源网络接口，使 DISRPT 共享任务数据可公开访问。

0 人收藏 0 人点赞

#linguistics

利用共现比较组装局部语法

arXiv cs.CL ↗ · 2026-05-13 缓存

本文提出了一种比较局部语法共现结果的方法，旨在优化葡萄牙语人名命名实体识别，并在 HAREM 数据集上取得了更高的 F-measure 分数。

0 人收藏 0 人点赞

#linguistics

通过语言提升理解力

MIT News — Artificial Intelligence ↗ · 2026-05-01 缓存

本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特（Olivia Honeycutt），重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究，尤其关注人类语言处理与大语言模型的比较。

0 人收藏 0 人点赞

#linguistics

马尔可夫再读普希金：一场关于《叶甫盖尼·奥涅金》诗性世界的统计之旅

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者用四态马尔可夫链对普希金《叶甫盖尼·奥涅金》及其意大利译本中的元音/辅音模式建模，揭示结构不对称与叙事相关的音韵线索。

0 人收藏 0 人点赞

#linguistics

通过句法可预测性的语言学感知型LLM水印技术

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了STELA，一个语言学感知的LLM水印框架，通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测，在类型学多样化的语言（英语、中文、韩语）上展示了优异性能。

0 人收藏 0 人点赞

linguistics

提交意见反馈