融合风格测量与嵌入系统以估计日语文本的作者身份似然比

arXiv cs.CL 2026/06/15 04:00 论文

authorship-attribution forensic-text-comparison likelihood-ratio stylometry embedding japanese fusion

摘要

本文将对法医作者身份鉴定中的似然比框架应用于日语文本，融合了风格测量特征与基于嵌入的系统，以提高区分度和校准性能。

arXiv:2606.13991v1 Announce Type: new 摘要：似然比框架被广泛认为是法医学各领域证据分析在逻辑和法律上的合理基础，其在文本证据的作者身份分析中的重要性也日益得到认可。然而，迄今为止，其应用仅限于英语文本。与此同时，作者身份鉴定传统上依赖多种风格测量特征，而预训练大语言模型的兴起也催生了新的上下文嵌入方法。通过融合这些不同方法有望提升性能，但尚未有研究将风格测量特征系统与基于嵌入的系统在似然比范式内进行整合。本研究首次将基于似然比的法医文本比较应用于日语数字文本，使用博客中约1000字符的片段，旨在：1）评估系统性能和似然比量级；2）评估融合风格测量特征系统与基于嵌入系统的影响。结果表明，融合系统在保持优秀校准性能的同时，能够：1）增大与事实一致的似然比量级；2）减小与事实相反的似然比量级；3）提高整体区分能力。性能最佳的融合系统实现了0.32484的对数似然比成本，既展示了似然比框架在日语中的可行性，也体现了异构系统融合的优势。

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:57

# 融合文体测量与嵌入系统以估计日文作者身份似然比
来源：https://arxiv.org/abs/2606.13991
查看PDF (https://arxiv.org/pdf/2606.13991)

> 摘要：似然比框架被广泛认为是法医学领域证据分析在逻辑和法律上的合理基础，其在文本证据的作者身份分析中的重要性也日益得到认可。然而迄今为止，其应用仅限于英文文本。与此同时，作者身份归属传统上依赖多种文体测量特征，即使预训练大语言模型的兴起带来了新的上下文嵌入方法。通过融合这些多样化方法有望提升性能，但尚未应用于在似然比范式下将基于文体测量特征的系统与基于嵌入的系统相结合。本研究首次将基于似然比的法医文本比对应用于日文数字文本，使用来自博客的约1000字符摘录，旨在1）评估系统性能与似然比量级，以及2）评估融合基于文体测量特征的系统与基于嵌入的系统的影响。结果表明，融合系统在保持极佳校准能力的同时，能够1）增加与事实一致的似然比量级；2）减少与事实相反的似然比量级；以及3）改善整体区分能力。性能最佳的融合方案实现了0.32484的对数似然比代价，既证明了似然比框架在日文中的可行性，也展示了跨异质系统融合的优势。

## 提交历史

来自：石原俊一 [查看邮箱](https://arxiv.org/show-email/8cbdba28/2606.13991) **\[v1\]**2026年6月12日，星期五 00:21:30 UTC (1,476 KB)

融合风格测量与嵌入系统以估计日语文本的作者身份似然比

相似文章

面向威胁主体分析的日本网络评论作者归属基础研究

基于编码器的语言模型中，作者身份信号出现在哪里？

对数似然、辛普森悖论与机器生成文本的检测

READER：基于提取表示的鲁棒证据驱动作者身份解码

当新生成器到来：基于岭特征迁移的终身机器生成文本归因

提交意见反馈