标签
BamiBERT 是一种新的基于BERT的越南语预训练语言模型,它解决了PhoBERT的局限性,支持更长的上下文,无需分词即可运行,并在多个越南语基准上取得了最先进的结果。
推荐一个解释Transformer架构的教育资源,涵盖token嵌入、自注意力、残差连接,以及与GPT和BERT的联系。
介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集,并开发了基于BERT的最先进模型,用于仇恨言论分析,包括分类、强度预测、目标识别和跨度检测。
本文发现,HateXplain中42.6%的标注者分歧集中在仇恨/冒犯边界,表明多数票压制了少数价值观,导致模型对有争议的输入输出错误但高度自信的预测。
本文探讨了ModernBERT模型在法律领域的领域适应,通过在美国法院意见上进行进一步预训练,取得了相对于基础模型的显著改进,并公开发布了检查点。
SupraLabs 发布了 SupraSafety-18M,这是一个微型的 18M 参数 BERT 风格的内容审核模型,基于 NVIDIA 的 Nemotron-3.5 数据集训练。它达到了 81.2% 的准确率,并能在边缘设备上高效运行。
本文比较了微调BERT(gbert-large)与少样本大语言模型提示(Llama 4 Maverick)在德语气候新闻句子中检测威胁与解决方案框架的效果。BERT获得了更高的F1分数(0.83 vs 0.78),消融研究表明提供前一句上下文可提升性能。
本文利用深度学习方法(LCF-BERT-CDM)研究了《自然·通讯》多轮同行评审中方面级情感的分布与演化,实现了82.65%的宏F1值,并发现随着评审轮次增加,正面情感上升而负面情感下降。
本文提出了一种新的多语言共指消解流水线,利用从英语到低资源语言的循环一致性机器翻译生成训练数据,并通过反向翻译和BERT相似性进行验证。在四种低资源语言上的实验表明,该方法带来了显著的性能提升,使得在没有现有语料库的语言中也能实现准确的共指消解。
本文提出了一种混合预训练目标,结合了JEPA潜在空间预测和MLM重建,用于语言模型,显示出改进的嵌入均匀性和语义-词汇平衡。
本文提出了一种基于文本的因果推断方法,通过改进的 CausalBERT 模型,解析各独立维度(如学校管理、学业表现)对在线评价总体评分的影响,并在超过 60 万条美国 K-12 学校评价数据上进行了验证。主要改进包括:温度缩放、超参数优化以及可解释性方法,以减少混淆偏差。
本文介绍了ChristBERT,一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族,并在医学命名实体识别和文本分类任务上评估了三种领域适应策略(继续预训练、从头预训练和词汇适应),取得了最先进的结果。
本文介绍Lepton,一个微调的BERT分类器,用于预测古典中文文集目录中的标题是私人信件还是序言(尤其是易混淆的赠序)。该模型利用了来自明末清初三十三位文人的5,438条手工标注标题。
本文使用基于BERT的大型语言模型对Decentraland的Discord社区进行情感分析,以提升MANA代币价格预测,并证明融合情感、交易量和市值信息的多模态LSTM模型优于仅使用价格信息的基线模型。
本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。
发布了 en_legal_ner_ind_trf v0.1,这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型,在案例引用上取得了97.76%的F1得分,显著优于之前的基线。
这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。
本文介绍了研究员 Brian Hie,重点阐述了他文学与计算机科学的独特背景如何启发了 ESM 的开发,这是一种用于蛋白质序列的类似 BERT 的模型。