标签
本文分析了122种语言,表明依存长度最小化在功能性依存(短且不变)与词汇性依存(较长且可变)上的作用不同,这表明语法为语言处理提供了局部支撑。
Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。
堪萨斯大学的研究人员利用网络科学绘制了英语口语词汇的视觉相似性,发现大约三分之一的单词在读唇时看起来至少与另一个单词相似。这项研究提供了关于常见读唇错误的见解,并可能改善人类和人工智能读唇系统的训练。
本文研究Transformer语言模型如何学习具有非自然属性的'不可能'语言,发现虽然语法敏感性逐渐下降,但生成能力表现出显著失败,从而提出了未证实语言的链接假说。
一条推文重点介绍了10款由大学开发的免费开源软件工具,这些工具的性能优于或堪比昂贵的付费替代品,涵盖参考文献管理、文本分析、网络可视化、地理信息系统、统计学、语音分析、生物网络、数据清理、研究存档和笔记记录。
本文介绍了一项基于语料库的研究,通过对北京话和台湾话口语语料库的语音和语义分析,使用广义加性模型和上下文嵌入,表明普通话中的轻声是一个具有自身调目标的词调。
本文介绍了MorfFlex,一种适用于具有丰富屈折和派生形态的语言的形态词典架构,以捷克语的MorfFlex CZ为例,该词典包含超过1亿个词形,支持标注一致性和NLP工具。
Tom Di Mino,一位AI工程师兼业余语言学家,声称破译了超过一个世纪以来让专家们束手无策的古代米诺斯文字Linear A。他的解决方案将Linear A映射到一种已灭绝的闪米特语言,目前正由罗格斯大学和剑桥大学的语言学专家审查。
本文提出了机器翻译中不可译性的结构化本体论,以及补偿策略的分类法和多语言数据集。人类偏好研究表明,翻译质量取决于所使用的策略,且对解释性翻译存在一致偏好。
对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。
本文运用科学哲学框架论证,大语言模型作为最小模型在语言学中具有认识论价值,可用于提供可能性解释,但尚不足以构成对人类语言的实际性解释。
本文将从强化学习中继承的后继表征应用于自然语言,训练神经网络预测未来词的期望分布。研究表明,词性、词汇子类等语言类别无需显式监督即可自发涌现。
本文基于16项理论标准,对多词表达(MWEs)进行数据驱动分析,并由语言学专家进行标注,发现没有完全习语化的表达,且词汇标准影响最大。
介绍 DiscoExplorer,一个用于搜索和可视化跨16种语言的篇章关系数据集的开源网络接口,使 DISRPT 共享任务数据可公开访问。
本文提出了一种比较局部语法共现结果的方法,旨在优化葡萄牙语人名命名实体识别,并在 HAREM 数据集上取得了更高的 F-measure 分数。
本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。
研究者用四态马尔可夫链对普希金《叶甫盖尼·奥涅金》及其意大利译本中的元音/辅音模式建模,揭示结构不对称与叙事相关的音韵线索。
本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。