面向威胁主体分析的日本网络评论作者归属基础研究

arXiv cs.CL 论文

摘要

这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。

arXiv:2604.16376v1 发布类型:new 摘要:本研究探讨了基于文体特征的作者归属技术在支持威胁情报主体分析方面的适用性。作为未来拓展至暗网论坛应用的基础步骤,我们利用来自明网的日本评论数据开展了实验。我们基于Rakuten Ichiba的评论内容构建了数据集,并对比了四种方法:基于逻辑回归的TF-IDF(TF-IDF+LR)、基于逻辑回归的BERT嵌入(BERT-Emb+LR)、BERT微调(BERT-FT),以及基于$k$近邻的度量学习(Metric+kNN)。结果显示,BERT-FT整体性能最优;但当作者规模扩展至数百人时,模型训练出现不稳定的情况,此时TF-IDF+LR在准确率、稳定性和计算开销方面均更具优势。此外,Top-$k$评估证明了候选筛选机制的实用性,而错误分析表明,模板化文本、对主题的依赖性以及文本过短是导致分类错误的核心因素。
查看原文

相似文章

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。