融合风格测量与嵌入系统以估计日语文本的作者身份似然比

arXiv cs.CL 论文

摘要

本文将对法医作者身份鉴定中的似然比框架应用于日语文本,融合了风格测量特征与基于嵌入的系统,以提高区分度和校准性能。

arXiv:2606.13991v1 Announce Type: new 摘要:似然比框架被广泛认为是法医学各领域证据分析在逻辑和法律上的合理基础,其在文本证据的作者身份分析中的重要性也日益得到认可。然而,迄今为止,其应用仅限于英语文本。与此同时,作者身份鉴定传统上依赖多种风格测量特征,而预训练大语言模型的兴起也催生了新的上下文嵌入方法。通过融合这些不同方法有望提升性能,但尚未有研究将风格测量特征系统与基于嵌入的系统在似然比范式内进行整合。本研究首次将基于似然比的法医文本比较应用于日语数字文本,使用博客中约1000字符的片段,旨在:1)评估系统性能和似然比量级;2)评估融合风格测量特征系统与基于嵌入系统的影响。结果表明,融合系统在保持优秀校准性能的同时,能够:1)增大与事实一致的似然比量级;2)减小与事实相反的似然比量级;3)提高整体区分能力。性能最佳的融合系统实现了0.32484的对数似然比成本,既展示了似然比框架在日语中的可行性,也体现了异构系统融合的优势。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:57

# 融合文体测量与嵌入系统以估计日文作者身份似然比
来源:https://arxiv.org/abs/2606.13991
查看PDF (https://arxiv.org/pdf/2606.13991)

> 摘要:似然比框架被广泛认为是法医学领域证据分析在逻辑和法律上的合理基础,其在文本证据的作者身份分析中的重要性也日益得到认可。然而迄今为止,其应用仅限于英文文本。与此同时,作者身份归属传统上依赖多种文体测量特征,即使预训练大语言模型的兴起带来了新的上下文嵌入方法。通过融合这些多样化方法有望提升性能,但尚未应用于在似然比范式下将基于文体测量特征的系统与基于嵌入的系统相结合。本研究首次将基于似然比的法医文本比对应用于日文数字文本,使用来自博客的约1000字符摘录,旨在1)评估系统性能与似然比量级,以及2)评估融合基于文体测量特征的系统与基于嵌入的系统的影响。结果表明,融合系统在保持极佳校准能力的同时,能够1)增加与事实一致的似然比量级;2)减少与事实相反的似然比量级;以及3)改善整体区分能力。性能最佳的融合方案实现了0.32484的对数似然比代价,既证明了似然比框架在日文中的可行性,也展示了跨异质系统融合的优势。

## 提交历史

来自:石原俊一 [查看邮箱](https://arxiv.org/show-email/8cbdba28/2606.13991) **\[v1\]**2026年6月12日,星期五 00:21:30 UTC (1,476 KB)

相似文章

面向威胁主体分析的日本网络评论作者归属基础研究

arXiv cs.CL

这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。

基于编码器的语言模型中,作者身份信号出现在哪里?

arXiv cs.CL

本文通过机械可解释性解释了为什么使用相同编码器、数据和损失微调的作者身份归属模型,其性能可能因评分机制不同而相差四倍。研究发现,评分器决定了编码器在何处整合作者身份信号:平均池化迫使早期整合,而延迟交互则允许后期整合。

对数似然、辛普森悖论与机器生成文本的检测

arXiv cs.CL

本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。