computational-linguistics

标签

Cards List
#computational-linguistics

Svarna:一个面向现代希腊语的开源语料库工作台

arXiv cs.CL · 2天前 缓存

Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。

0 人收藏 0 人点赞
#computational-linguistics

Ethos与Pathos诉求如何在读者对社交媒体信息的解读中引起共鸣

arXiv cs.CL · 2天前 缓存

本文研究了社交媒体信息中Ethos与Pathos诉求如何与沉默读者产生共鸣,发现修辞内容导致更大的解读分歧,并能预测受众对作者的态度。

0 人收藏 0 人点赞
#computational-linguistics

认识UD_Czech-PDTC:通用依赖框架下的大型、体裁丰富的树库

arXiv cs.CL · 2026-06-24 缓存

本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。

0 人收藏 0 人点赞
#computational-linguistics

基于波你尼语法的印度语言处理基础

arXiv cs.CL · 2026-06-24 缓存

本文提出了一套基于波你尼语法的基准套件,旨在统一跨印度语言的处理,提高准确性、数据效率和可迁移性。

0 人收藏 0 人点赞
#computational-linguistics

@omershapira: 今天学到:Jurafsky & Martin的教科书——我多年前在本科计算语言学课上使用的(那时TAU没有开设这门课)……

X AI KOLs Following · 2026-06-21 缓存

Jurafsky和Martin的《Speech and Language Processing》教科书第三版于2026年1月发布,其中对Transformers进行了清晰解释,并包括ASR、TTS和DPO等新章节的更新。

0 人收藏 0 人点赞
#computational-linguistics

Dango:一个严格仅限L1的大型语言模型,用于研究第二语言习得

arXiv cs.CL · 2026-06-18 缓存

Dango是一个18亿参数的大型语言模型,严格使用日语(L1)进行预训练,然后使用英语(L2)进行微调,以研究第二语言习得中的语言迁移效应。该模型从预训练语料库中过滤掉英语污染,并展现出类似人类的L2输出模式。

0 人收藏 0 人点赞
#computational-linguistics

基于智能体的形态交替模式演化模型

arXiv cs.CL · 2026-06-12 缓存

本文介绍了使用多智能体模拟语言中形态交替模式(如'go/went')的出现,并利用AI历史语言学家(基于大语言模型)评估演化形态相对于真实语言的合理性。

0 人收藏 0 人点赞
#computational-linguistics

CAF-Gen:一种用于丰富论证结构的多智能体系统

arXiv cs.CL · 2026-06-08 缓存

CAF-Gen是一个基于多智能体LLM的框架,通过迭代的创作者-评审者流水线,将浅层论证结构丰富为正式的Carneades论证框架模型,从而提高了结构对齐性和质量。

0 人收藏 0 人点赞
#computational-linguistics

GlossAssist —— 一款简化语料库创建并研究NLP模型在低资源语言记录环境中效果的工具

arXiv cs.CL · 2026-06-04 缓存

GlossAssist 是一款面向低资源语言记录场景的行间注释文本(IGT)语料库创建工具,以 CWoMP 检索式架构为核心,并结合主动学习反馈机制,使标注者在进行纠错时无需重新训练模型即可持续提升预测质量。

0 人收藏 0 人点赞
#computational-linguistics

基于句法词典的词聚类方法增强的法语解析

arXiv cs.CL · 2026-06-02 缓存

本文评估了将法语句法词典Lexicon-Grammar中的数据整合到概率解析器中的效果,通过对动词进行词聚类方法,提高了法语的解析准确率。

0 人收藏 0 人点赞
#computational-linguistics

面向类型学可控词汇生成的模块化架构

arXiv cs.CL · 2026-05-29 缓存

本文提出了一种模块化框架,用于生成可发音、类型学上合理且语义结构化的工词汇,该框架使用来自PHOIBLE的音位清单和概率语法,优于确定性基线方法。

0 人收藏 0 人点赞
#computational-linguistics

词汇语义学的场景抽象:情境意义的结构化表示

arXiv cs.CL · 2026-05-22 缓存

本文提出了场景抽象(Scene Abstraction)框架,该框架利用大语言模型的少样本提示,构建单词在上下文中引发的解释性场景的结构化表示。作者引入了COCA-Scenes数据集,包含520个使用实例,并提供了实证证据表明场景是可可靠识别的,且比替代方案更符合人类解释。

0 人收藏 0 人点赞
#computational-linguistics

词根与模式屈折形态学:阿拉伯语破碎复数

arXiv cs.CL · 2026-05-22 缓存

提出了一种新颖的词根与模式模型来描述阿拉伯语名词的屈折形态,重点关注破碎复数,包含160个类别的分类法以及应用于3200个词条的编码方案,旨在改进计算语言资源。

0 人收藏 0 人点赞
#computational-linguistics

基于理论语言学专家标准的习语性数据驱动方法

arXiv cs.CL · 2026-05-20 缓存

本文基于16项理论标准,对多词表达(MWEs)进行数据驱动分析,并由语言学专家进行标注,发现没有完全习语化的表达,且词汇标准影响最大。

0 人收藏 0 人点赞
#computational-linguistics

IMLJD:用于印度婚姻诉讼分析的计算数据集

arXiv cs.CL · 2026-05-20 缓存

本文介绍了IMLJD,一个专门用于分析印度婚姻诉讼的计算数据集,支持自然语言处理和法律分析研究。

0 人收藏 0 人点赞
#computational-linguistics

一种用于发展语言研究中测量方式动词和结果动词的可扩展工具

arXiv cs.CL · 2026-05-19 缓存

本文提出了一种计算方法,利用大型语言模型和RoBERTa来识别句子语境中的方式动词和结果动词,准确率高达89.6%。旨在为发展语言研究提供一种可扩展的测量工具。

0 人收藏 0 人点赞
#computational-linguistics

通过统计语法归纳计算化竞争的句法发展成熟理论

arXiv cs.CL · 2026-05-12 缓存

本文提出了一个计算框架,用于测试儿童句法发展中相互竞争的成熟理论,特别是利用统计语法归纳法比较自下而上(bottom-up)与向内(inward)的理论解释。

0 人收藏 0 人点赞
#computational-linguistics

基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线

arXiv cs.CL · 2026-05-11 缓存

本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。

0 人收藏 0 人点赞
#computational-linguistics

基于社区的立场分布与论点组织方法

arXiv cs.CL · 2026-04-21 缓存

# 基于社区的立场分布与论点组织方法 来源:[https://arxiv.org/html/2604.16852](https://arxiv.org/html/2604.16852) \\jvol vv\\jnumnn\\jyear2025\\dochead\\pageonefooter行动编辑:\{action editor name\}。收稿日期:DD Month YYYY;修改稿日期:DD Month YYYY;录用日期:DD Month YYYY。\\affilblock Laks V. S. Lakshmanan2 Raymond T. Ng3 University of British Columbia University of British Columbia University of Bri

0 人收藏 0 人点赞
#computational-linguistics

阴谋论的语义结构与演变测量

arXiv cs.CL · 2026-04-20 缓存

本论文使用来自 r/politics 的 169.9 百万条 Reddit 评论(2012-2022),测量了阴谋论的语义结构和演变,引入了由语义邻域界定的"语义对象"概念,以追踪阴谋论的含义如何随时间变化,超越了简单的关键词方法。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈