natural-language-processing

#natural-language-processing

NLP的未来可能不在NLP会议上：自然语言处理中的学术迁移模式

arXiv cs.CL ↗ · 10小时前缓存

一项分析2010年至2026年间14.2万篇NLP论文的研究发现，资深和新兴的NLP作者越来越多地将论文发表在NeurIPS和ICLR等通用机器学习会议上，而非ACL等核心NLP会议，且ML会议具有显著的引用优势。

0 人收藏 0 人点赞

#natural-language-processing

BamiBERT: 一种新的基于BERT的越南语语言模型

arXiv cs.CL ↗ · 10小时前缓存

BamiBERT 是一种新的基于BERT的越南语预训练语言模型，它解决了PhoBERT的局限性，支持更长的上下文，无需分词即可运行，并在多个越南语基准上取得了最先进的结果。

0 人收藏 0 人点赞

#natural-language-processing

RusFinChain：面向金融领域可验证思维链推理的俄语基准测试，配备模糊对齐评估

arXiv cs.CL ↗ · 10小时前缓存

介绍RusFinChain——首个面向金融领域可验证思维链推理的俄语符号基准测试，涵盖17个领域，包含5,280个参数化示例，并增强了评估指标，包括模糊数值对齐。

0 人收藏 0 人点赞

#natural-language-processing

Svarna：一个面向现代希腊语的开源语料库工作台

arXiv cs.CL ↗ · 昨天缓存

Svarna 是一个面向现代希腊语的开源网络语料库工作台，整合了多个数据库，包含超过 5.07 亿词，并提供多种语言分析工具，采用 MIT 许可证发布。

0 人收藏 0 人点赞

#natural-language-processing

新闻事件的过程：关于灾害的基于文本的数据收集的自底向上和自顶向下方法的比较

arXiv cs.CL ↗ · 昨天缓存

本文比较了从新闻文章中收集灾害文本数据的自顶向下和自底向上方法，并以德国关于山体滑坡的新闻作为案例研究。

0 人收藏 0 人点赞

#natural-language-processing

定义上的忠实：通过自然语义元语言解释进行情感分析

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种使用自然语义元语言（NSM）的情感分析界面，为情感分类生成忠实且可解释的说明，以轻微的准确度换取可验证性。

0 人收藏 0 人点赞

#natural-language-processing

土耳其语和阿拉伯语中的仇恨言论检测：一项综合研究

arXiv cs.CL ↗ · 昨天缓存

介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集，并开发了基于BERT的最先进模型，用于仇恨言论分析，包括分类、强度预测、目标识别和跨度检测。

0 人收藏 0 人点赞

#natural-language-processing

LabGuard：将自然语言实验室规则转化为具身实验室代理的运行时防护

arXiv cs.AI ↗ · 2天前缓存

LabGuard 引入了一个框架，将自然语言实验室安全规则转化为具身代理的可执行运行时监控器，在不影响任务成功率的情况下，将不安全事件从 39.5% 降至 23.8%。

0 人收藏 0 人点赞

#natural-language-processing

超越编译：评估自然语言到Lean语句的忠实形式化

arXiv cs.AI ↗ · 2天前缓存

本文提出了一个用于自然语言到Lean语句忠实形式化的基准测试和评估协议，揭示了编译通过与共识忠实性之间29个百分点的差距，并分解了专家起草、上下文搜索和细化反馈的效果。

0 人收藏 0 人点赞

#natural-language-processing

基于细粒度知识实体的学术论文团队机构构成与新颖性关系探索

arXiv cs.CL ↗ · 2天前缓存

本研究以自然语言处理领域为例，探讨团队机构构成（学术、产业或混合）如何影响论文新颖性，利用方法、数据集等细粒度知识实体来测量新颖性。

0 人收藏 0 人点赞

#natural-language-processing

社交媒体中的语言距离：不同年龄群体情绪调节的指标

arXiv cs.CL ↗ · 2天前缓存

本文利用社交媒体文本研究语言距离作为不同年龄群体情绪调节的指标，发现语言距离随年龄增长而增加，这与老年人幸福感提升的研究结果一致。

0 人收藏 0 人点赞

#natural-language-processing

超越干净文本：在噪声文本中评估编码器和解码器对孟加拉语事件检测的鲁棒性

arXiv cs.CL ↗ · 2天前缓存

本文介绍了一个包含噪声文本（ASR、拼写错误）的孟加拉语事件检测基准，并评估了仅编码器和仅解码器的大语言模型，发现解码器模型对噪声的鲁棒性更强。

0 人收藏 0 人点赞

#natural-language-processing

基于人-大语言模型对齐的歌词标注混合框架

arXiv cs.CL ↗ · 3天前缓存

本文介绍了一种混合框架，用于歌词的句子级情感标注，通过预测不对齐来优化人与LLM的协作，解决了歌词情感识别中的主观性和可扩展性挑战。

0 人收藏 0 人点赞

#natural-language-processing

BERTomelo：你的葡萄牙语编码器最佳伙伴

arXiv cs.CL ↗ · 3天前缓存

本文介绍了BERTomelo，一种基于ModernBERT架构预训练的下一代单语编码器，专为葡萄牙语优化。在STS和NER等下游任务中，其性能优于以往的葡萄牙语模型和多语言模型。

0 人收藏 0 人点赞

#natural-language-processing

SEATauBench: 将工具-智能体-用户评估适配到低资源东南亚语言

arXiv cs.CL ↗ · 3天前缓存

介绍了SEATauBench，这是首个面向东南亚语言的智能体评估框架，将τ²-Bench适配到中文、越南语、泰语、印尼语和菲律宾语，并揭示了从英语迁移到本地化设置时存在显著的能力差距。

0 人收藏 0 人点赞

#natural-language-processing

多跳知识图谱问答的本体引导证据路径推理

arXiv cs.AI ↗ · 4天前缓存

提出 OPI，一种面向多跳知识图谱问答的本体引导框架，利用以关系为中心的本体图进行双向检索和迭代精炼，在多个基准上取得了最先进的结果。

0 人收藏 0 人点赞

#natural-language-processing

从汽车维修指令中学习互补动作建模

arXiv cs.CL ↗ · 4天前缓存

本文介绍了互补动作建模（CAM）任务，该任务通过修改动作短语并保持上下文不变，来识别或生成汽车维修指令的程序性对应物。作者使用一个德国汽车数据集，通过候选匹配和受控序列到序列生成来研究这些互补指令的建模。

0 人收藏 0 人点赞

#natural-language-processing

基于术语的异质语料库层级归纳

arXiv cs.CL ↗ · 2026-06-26 缓存

提出了一种基于术语的框架，用于从异质文本源中归纳层级分类体系，实现跨源对齐和可解释的层级结构。在多源基准上的实验表明，与基于文本和摘要的基线相比，该框架在一致性和质量上有所提升。

0 人收藏 0 人点赞

#natural-language-processing

多模态事件抽取中的评估陷阱与挑战

arXiv cs.CL ↗ · 2026-06-26 缓存

本文对多模态事件抽取中的评估陷阱进行了系统分析，识别出数据预处理不一致、任务假设不一致以及评估设置过于宽松等问题，这些问题可能导致性能被高估。

0 人收藏 0 人点赞

#natural-language-processing

超越逻辑形式：LLM提取的谬误分类模式

arXiv cs.CL ↗ · 2026-06-26 缓存

本文提出了一种谬误分类框架，利用LLM从谬误示例及其解释中提取模式，在零样本基线上取得了统计显著的改进，并展示了跨数据集的泛化能力。

0 人收藏 0 人点赞

natural-language-processing

提交意见反馈