computational-linguistics

#computational-linguistics

Svarna：一个面向现代希腊语的开源语料库工作台

arXiv cs.CL ↗ · 2天前缓存

Svarna 是一个面向现代希腊语的开源网络语料库工作台，整合了多个数据库，包含超过 5.07 亿词，并提供多种语言分析工具，采用 MIT 许可证发布。

0 人收藏 0 人点赞

#computational-linguistics

Ethos与Pathos诉求如何在读者对社交媒体信息的解读中引起共鸣

arXiv cs.CL ↗ · 2天前缓存

本文研究了社交媒体信息中Ethos与Pathos诉求如何与沉默读者产生共鸣，发现修辞内容导致更大的解读分歧，并能预测受众对作者的态度。

0 人收藏 0 人点赞

#computational-linguistics

认识UD_Czech-PDTC：通用依赖框架下的大型、体裁丰富的树库

arXiv cs.CL ↗ · 2026-06-24 缓存

本文介绍了UD_Czech-PDTC，这是通用依赖框架下捷克语的一个大型、体裁多样的树库，源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。

0 人收藏 0 人点赞

#computational-linguistics

基于波你尼语法的印度语言处理基础

arXiv cs.CL ↗ · 2026-06-24 缓存

本文提出了一套基于波你尼语法的基准套件，旨在统一跨印度语言的处理，提高准确性、数据效率和可迁移性。

0 人收藏 0 人点赞

#computational-linguistics

@omershapira: 今天学到：Jurafsky & Martin的教科书——我多年前在本科计算语言学课上使用的（那时TAU没有开设这门课）……

X AI KOLs Following ↗ · 2026-06-21 缓存

Jurafsky和Martin的《Speech and Language Processing》教科书第三版于2026年1月发布，其中对Transformers进行了清晰解释，并包括ASR、TTS和DPO等新章节的更新。

0 人收藏 0 人点赞

#computational-linguistics

Dango：一个严格仅限L1的大型语言模型，用于研究第二语言习得

arXiv cs.CL ↗ · 2026-06-18 缓存

Dango是一个18亿参数的大型语言模型，严格使用日语（L1）进行预训练，然后使用英语（L2）进行微调，以研究第二语言习得中的语言迁移效应。该模型从预训练语料库中过滤掉英语污染，并展现出类似人类的L2输出模式。

0 人收藏 0 人点赞

#computational-linguistics

基于智能体的形态交替模式演化模型

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了使用多智能体模拟语言中形态交替模式（如'go/went'）的出现，并利用AI历史语言学家（基于大语言模型）评估演化形态相对于真实语言的合理性。

0 人收藏 0 人点赞

#computational-linguistics

CAF-Gen：一种用于丰富论证结构的多智能体系统

arXiv cs.CL ↗ · 2026-06-08 缓存

CAF-Gen是一个基于多智能体LLM的框架，通过迭代的创作者-评审者流水线，将浅层论证结构丰富为正式的Carneades论证框架模型，从而提高了结构对齐性和质量。

0 人收藏 0 人点赞

#computational-linguistics

GlossAssist —— 一款简化语料库创建并研究NLP模型在低资源语言记录环境中效果的工具

arXiv cs.CL ↗ · 2026-06-04 缓存

GlossAssist 是一款面向低资源语言记录场景的行间注释文本（IGT）语料库创建工具，以 CWoMP 检索式架构为核心，并结合主动学习反馈机制，使标注者在进行纠错时无需重新训练模型即可持续提升预测质量。

0 人收藏 0 人点赞

#computational-linguistics

基于句法词典的词聚类方法增强的法语解析

arXiv cs.CL ↗ · 2026-06-02 缓存

本文评估了将法语句法词典Lexicon-Grammar中的数据整合到概率解析器中的效果，通过对动词进行词聚类方法，提高了法语的解析准确率。

0 人收藏 0 人点赞

#computational-linguistics

面向类型学可控词汇生成的模块化架构

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出了一种模块化框架，用于生成可发音、类型学上合理且语义结构化的工词汇，该框架使用来自PHOIBLE的音位清单和概率语法，优于确定性基线方法。

0 人收藏 0 人点赞

#computational-linguistics

词汇语义学的场景抽象：情境意义的结构化表示

arXiv cs.CL ↗ · 2026-05-22 缓存

本文提出了场景抽象（Scene Abstraction）框架，该框架利用大语言模型的少样本提示，构建单词在上下文中引发的解释性场景的结构化表示。作者引入了COCA-Scenes数据集，包含520个使用实例，并提供了实证证据表明场景是可可靠识别的，且比替代方案更符合人类解释。

0 人收藏 0 人点赞

#computational-linguistics

词根与模式屈折形态学：阿拉伯语破碎复数

arXiv cs.CL ↗ · 2026-05-22 缓存

提出了一种新颖的词根与模式模型来描述阿拉伯语名词的屈折形态，重点关注破碎复数，包含160个类别的分类法以及应用于3200个词条的编码方案，旨在改进计算语言资源。

0 人收藏 0 人点赞

#computational-linguistics

基于理论语言学专家标准的习语性数据驱动方法

arXiv cs.CL ↗ · 2026-05-20 缓存

本文基于16项理论标准，对多词表达（MWEs）进行数据驱动分析，并由语言学专家进行标注，发现没有完全习语化的表达，且词汇标准影响最大。

0 人收藏 0 人点赞

#computational-linguistics

IMLJD：用于印度婚姻诉讼分析的计算数据集

arXiv cs.CL ↗ · 2026-05-20 缓存

本文介绍了IMLJD，一个专门用于分析印度婚姻诉讼的计算数据集，支持自然语言处理和法律分析研究。

0 人收藏 0 人点赞

#computational-linguistics

一种用于发展语言研究中测量方式动词和结果动词的可扩展工具

arXiv cs.CL ↗ · 2026-05-19 缓存

本文提出了一种计算方法，利用大型语言模型和RoBERTa来识别句子语境中的方式动词和结果动词，准确率高达89.6%。旨在为发展语言研究提供一种可扩展的测量工具。

0 人收藏 0 人点赞

#computational-linguistics

通过统计语法归纳计算化竞争的句法发展成熟理论

arXiv cs.CL ↗ · 2026-05-12 缓存

本文提出了一个计算框架，用于测试儿童句法发展中相互竞争的成熟理论，特别是利用统计语法归纳法比较自下而上（bottom-up）与向内（inward）的理论解释。

0 人收藏 0 人点赞

#computational-linguistics

基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线

arXiv cs.CL ↗ · 2026-05-11 缓存

本文利用 MIPVU 框架和 PSU 中文隐喻语料库，建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能，并开源代码和数据以推动后续研究。

0 人收藏 0 人点赞

#computational-linguistics

# 基于社区的立场分布与论点组织方法来源：[https://arxiv.org/html/2604.16852](https://arxiv.org/html/2604.16852) \\jvol vv\\jnumnn\\jyear2025\\dochead\\pageonefooter行动编辑：\{action editor name\}。收稿日期：DD Month YYYY；修改稿日期：DD Month YYYY；录用日期：DD Month YYYY。\\affilblock Laks V. S. Lakshmanan2 Raymond T. Ng3 University of British Columbia University of British Columbia University of Bri

0 人收藏 0 人点赞

#computational-linguistics

阴谋论的语义结构与演变测量

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文使用来自 r/politics 的 169.9 百万条 Reddit 评论（2012-2022），测量了阴谋论的语义结构和演变，引入了由语义邻域界定的"语义对象"概念，以追踪阴谋论的含义如何随时间变化，超越了简单的关键词方法。

0 人收藏 0 人点赞

computational-linguistics

提交意见反馈