语言学奥林匹克竞赛:迈向语言学研究的新语料库?

arXiv cs.CL 论文

摘要

本文提出利用语言学奥林匹克竞赛数据构建新的语言学研究语料库,旨在推动该领域发展。

arXiv:2606.14257v1 公告类型: 新 摘要: 语言学奥林匹克问题(LOPs)是一类自包含的谜题,由代表特定语言现象的缩微语料库组成,解题者必须从中推导出基本语言规则,然后翻译一组新元素。语言学奥林匹克(LOs)已成为全球性现象,有43个不同地区参加2025年国际语言学奥林匹克竞赛(IOL)。尽管LOPs的类型学和解题策略已得到分析,但其科学层面及与学术语言学的联系仍有待探索。LOPs与许多语言学领域直接相关,例如语言类型学、语言相对论和语言学田野调查。近来,LOPs作为大型语言模型的基准成为研究焦点,从而凸显了它们在计算语言学中的用途。然而,它们尚未被纳入主流语言学研究。本文通过提供对LOPs作为语言数据源的结构化评估,并提出在学术研究中负责任使用它们的原则,试图为将这类特殊谜题纳入学术研究开辟新方向。从超过1800个LOPs出发,本研究通过讨论LOPs作为工具的 strengths 和 limitations,以及这些问题可能适用的语言学领域,批判性地审视了LOPs作为语言学研究新语料库的潜力。这项工作为一项更广泛的倡议奠定了基础,旨在通过为LOPs建立 robust 的理论框架,弥合LOs与学术语言学之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:58

# 语言奥林匹克竞赛:迈向语言学研究的新语料库?
来源:https://arxiv.org/abs/2606.14257
文献工具

## 文献与引用工具

文献浏览器 切换

代码、数据、媒体

## 本文相关的代码、数据和媒体

演示

## 演示

相关论文

## 推荐与搜索工具

关于 arXivLabs

## arXivLabs:与社区合作者的实验性项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享 arXiv 的新功能。

与 arXivLabs 合作的组织和个人都接受并认可我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法吗?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。

相似文章

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

说科学的语言:迈向面向自然科学的通用生成基础模型

Hugging Face Daily Papers

LOGOS是一个科学生成语言模型,它将多种科学对象及其空间交互编码为令牌序列,从而在自然科学的各类任务中实现统一的自主回归框架。1B、3B和8B参数的模型展现出性能随规模一致提升,并已发布以促进研究。

通过语言提升理解力

MIT News — Artificial Intelligence

本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL

本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。