语言学奥林匹克竞赛:迈向语言学研究的新语料库?
摘要
本文提出利用语言学奥林匹克竞赛数据构建新的语言学研究语料库,旨在推动该领域发展。
arXiv:2606.14257v1 公告类型: 新
摘要: 语言学奥林匹克问题(LOPs)是一类自包含的谜题,由代表特定语言现象的缩微语料库组成,解题者必须从中推导出基本语言规则,然后翻译一组新元素。语言学奥林匹克(LOs)已成为全球性现象,有43个不同地区参加2025年国际语言学奥林匹克竞赛(IOL)。尽管LOPs的类型学和解题策略已得到分析,但其科学层面及与学术语言学的联系仍有待探索。LOPs与许多语言学领域直接相关,例如语言类型学、语言相对论和语言学田野调查。近来,LOPs作为大型语言模型的基准成为研究焦点,从而凸显了它们在计算语言学中的用途。然而,它们尚未被纳入主流语言学研究。本文通过提供对LOPs作为语言数据源的结构化评估,并提出在学术研究中负责任使用它们的原则,试图为将这类特殊谜题纳入学术研究开辟新方向。从超过1800个LOPs出发,本研究通过讨论LOPs作为工具的 strengths 和 limitations,以及这些问题可能适用的语言学领域,批判性地审视了LOPs作为语言学研究新语料库的潜力。这项工作为一项更广泛的倡议奠定了基础,旨在通过为LOPs建立 robust 的理论框架,弥合LOs与学术语言学之间的差距。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 语言奥林匹克竞赛:迈向语言学研究的新语料库? 来源:https://arxiv.org/abs/2606.14257 文献工具 ## 文献与引用工具 文献浏览器 切换 代码、数据、媒体 ## 本文相关的代码、数据和媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于 arXivLabs ## arXivLabs:与社区合作者的实验性项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享 arXiv 的新功能。 与 arXivLabs 合作的组织和个人都接受并认可我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。 有一个能为 arXiv 社区增加价值的项目想法吗?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。
相似文章
大语言模型在低资源语言人文学科研究中的机遇与挑战
本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。
说科学的语言:迈向面向自然科学的通用生成基础模型
LOGOS是一个科学生成语言模型,它将多种科学对象及其空间交互编码为令牌序列,从而在自然科学的各类任务中实现统一的自主回归框架。1B、3B和8B参数的模型展现出性能随规模一致提升,并已发布以促进研究。
OpenCompass:大语言模型通用评测平台
OpenCompass是一个一站式、可扩展、高并发的大语言模型评测平台,支持多种基准测试和模块化设计,旨在统一和标准化LLM评估。
通过语言提升理解力
本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。
Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方
本文对多模态物理评估流程进行了审计,揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集(PhysCorp-A、PhysR1Corp、PhysOlym-A)和一个训练配方(Physics-R1),显著提高了在保留的奥赛问题上的性能。