CAIT: 儿童-成人互动句法分析工具包
摘要
CAIT 是一个开源的句法分析工具包,用于分析儿童-成人互动,包含一个依存句法分析器、词性标注器和构式标注器,这些模型基于 UD-English-CHILDES 树库训练,性能优于 SpaCy 和 Stanza 等通用英语句法分析器。
arXiv:2605.19718v1 Announce Type: new
Abstract: CHILDES 是语言习得研究的重要资源——但分析其句法结构的计算工具仍然有限。利用最近发布的带有金标准通用依存标注的 UD-English-CHILDES 树库,我们训练了一个专门针对 CHILDES 的先进依存句法分析器。该分析器能更准确地捕捉儿童-成人互动中的句法模式,性能优于广泛使用的现成英语句法分析器,包括 SpaCy 和 Stanza。除分析器外,我们还发布了一个词性标注器和一个话语级构式标注器,它们共同构成了开源工具包 CAIT(儿童-成人互动句法分析工具包)。通过详细的错误分析和一项追踪 CHILDES 中句法构式随发展时间分布的案例研究,我们展示了该工具包在大规模、可重复的语言习得研究中的实际应用价值。
查看缓存全文
缓存时间: 2026/05/20 08:26
# CAIT:儿童-成人互动句法分析工具包 来源:https://arxiv.org/abs/2605.19718 查看 PDF(https://arxiv.org/pdf/2605.19718) > 摘要:CHILDES 是语言习得研究的重要资源——然而,用于分析其句法结构的计算工具仍然有限。借助近期发布的带有黄金标准通用依存关系(UD)标注的 UD-English-CHILDES 树库,我们训练了一个专门针对 CHILDES 优化的最先进的依存句法分析器。该分析器能够更准确地捕捉儿童-成人互动中的句法模式,其性能优于广泛使用的现成英语分析器,包括 SpaCy 和 Stanza。除分析器外,我们还发布了一个词性标注器和一个话语级构式标注器,三者共同构成了开源的儿童-成人互动句法分析工具包(CAIT)。通过详细的错误分析以及跟踪 CHILDES 中句法构式随发育时间分布的案例研究,我们展示了该工具包在语言习得大规模可重复研究中的实际效用。 ## 提交历史 来自:Francesca Padovani \[查看电子邮件(https://arxiv.org/show-email/56363ed9/2605.19718)\] **\[v1\]** 2026年5月19日星期二 11:53:08 UTC(1,046 KB)
相似文章
ACAT:一个用于高效基于方面情感数据集标注的协作平台
ACAT 是一个基于 Web 的协作标注平台,支持四种基于方面的情感分析(ABSA)工作流,其核心特性是在导出时自动运行 ETL 流水线以计算标注者间一致性(IAA)指标,从而直接生成可用于训练的数据集。该平台在 1,002 条餐厅评论上完成了验证,标注中位耗时为 31.58 秒,原始 IAA 最高达 0.86。
宣布 BABLR
宣布 BABLR,一个全新的通用解析器框架和基于API的软件开发平台,旨在将IDE范式从文本文件编辑转变为代码文档编辑。它包含一个与 Tree-sitter 竞争的解析器框架、一个与 ESTree 竞争的解析树格式 agAST,以及一种新的数据语言 CSTML。
Show HN:有没有人对一个探索C++ AST的工具感兴趣?
ACAV是一个交互式抽象语法树可视化工具,适用于C、C++和Objective-C,基于Clang和Qt构建,允许开发者通过编译数据库从真实代码库中探索AST。
DraDDP:一个多模态多方对话话语解析数据集
本文介绍了DraDDP,这是首个公开的英文多模态多方对话话语解析数据集,基于美国电视剧构建,包含495个片段、6,374个话语和9.1小时的视频。基准测试表明,多模态信息有助于改善对话结构和关系类型的解析。
COTCAgent:基于概率链式思维完成的预防性咨询
COTCAgent是一个用于纵向电子健康记录的分层推理框架,采用概率链式思维完成方法,在自建数据集上达到90.47%的Top-1准确率,超越了现有的医疗代理。