标签
本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。
发布了 en_legal_ner_ind_trf v0.1,这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型,在案例引用上取得了97.76%的F1得分,显著优于之前的基线。
这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。
本文介绍了研究员 Brian Hie,重点阐述了他文学与计算机科学的独特背景如何启发了 ESM 的开发,这是一种用于蛋白质序列的类似 BERT 的模型。