标签
Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。
本文研究了社交媒体信息中Ethos与Pathos诉求如何与沉默读者产生共鸣,发现修辞内容导致更大的解读分歧,并能预测受众对作者的态度。
本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。
本文提出了一套基于波你尼语法的基准套件,旨在统一跨印度语言的处理,提高准确性、数据效率和可迁移性。
Jurafsky和Martin的《Speech and Language Processing》教科书第三版于2026年1月发布,其中对Transformers进行了清晰解释,并包括ASR、TTS和DPO等新章节的更新。
Dango是一个18亿参数的大型语言模型,严格使用日语(L1)进行预训练,然后使用英语(L2)进行微调,以研究第二语言习得中的语言迁移效应。该模型从预训练语料库中过滤掉英语污染,并展现出类似人类的L2输出模式。
本文介绍了使用多智能体模拟语言中形态交替模式(如'go/went')的出现,并利用AI历史语言学家(基于大语言模型)评估演化形态相对于真实语言的合理性。
CAF-Gen是一个基于多智能体LLM的框架,通过迭代的创作者-评审者流水线,将浅层论证结构丰富为正式的Carneades论证框架模型,从而提高了结构对齐性和质量。
GlossAssist 是一款面向低资源语言记录场景的行间注释文本(IGT)语料库创建工具,以 CWoMP 检索式架构为核心,并结合主动学习反馈机制,使标注者在进行纠错时无需重新训练模型即可持续提升预测质量。
本文评估了将法语句法词典Lexicon-Grammar中的数据整合到概率解析器中的效果,通过对动词进行词聚类方法,提高了法语的解析准确率。
本文提出了一种模块化框架,用于生成可发音、类型学上合理且语义结构化的工词汇,该框架使用来自PHOIBLE的音位清单和概率语法,优于确定性基线方法。
本文提出了场景抽象(Scene Abstraction)框架,该框架利用大语言模型的少样本提示,构建单词在上下文中引发的解释性场景的结构化表示。作者引入了COCA-Scenes数据集,包含520个使用实例,并提供了实证证据表明场景是可可靠识别的,且比替代方案更符合人类解释。
提出了一种新颖的词根与模式模型来描述阿拉伯语名词的屈折形态,重点关注破碎复数,包含160个类别的分类法以及应用于3200个词条的编码方案,旨在改进计算语言资源。
本文基于16项理论标准,对多词表达(MWEs)进行数据驱动分析,并由语言学专家进行标注,发现没有完全习语化的表达,且词汇标准影响最大。
本文介绍了IMLJD,一个专门用于分析印度婚姻诉讼的计算数据集,支持自然语言处理和法律分析研究。
本文提出了一种计算方法,利用大型语言模型和RoBERTa来识别句子语境中的方式动词和结果动词,准确率高达89.6%。旨在为发展语言研究提供一种可扩展的测量工具。
本文提出了一个计算框架,用于测试儿童句法发展中相互竞争的成熟理论,特别是利用统计语法归纳法比较自下而上(bottom-up)与向内(inward)的理论解释。
本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。
# 基于社区的立场分布与论点组织方法 来源:[https://arxiv.org/html/2604.16852](https://arxiv.org/html/2604.16852) \\jvol vv\\jnumnn\\jyear2025\\dochead\\pageonefooter行动编辑:\{action editor name\}。收稿日期:DD Month YYYY;修改稿日期:DD Month YYYY;录用日期:DD Month YYYY。\\affilblock Laks V. S. Lakshmanan2 Raymond T. Ng3 University of British Columbia University of British Columbia University of Bri
本论文使用来自 r/politics 的 169.9 百万条 Reddit 评论(2012-2022),测量了阴谋论的语义结构和演变,引入了由语义邻域界定的"语义对象"概念,以追踪阴谋论的含义如何随时间变化,超越了简单的关键词方法。