bert

#bert

BamiBERT: 一种新的基于BERT的越南语语言模型

arXiv cs.CL ↗ · 12小时前缓存

BamiBERT 是一种新的基于BERT的越南语预训练语言模型，它解决了PhoBERT的局限性，支持更长的上下文，无需分词即可运行，并在多个越南语基准上取得了最先进的结果。

0 人收藏 0 人点赞

#bert

@TheTuringPost: 一个理解或复习Transformer架构的绝佳资源。它解释了Transformer如何逐个token处理文本…

X AI KOLs Timeline ↗ · 13小时前缓存

推荐一个解释Transformer架构的教育资源，涵盖token嵌入、自注意力、残差连接，以及与GPT和BERT的联系。

0 人收藏 0 人点赞

#bert

土耳其语和阿拉伯语中的仇恨言论检测：一项综合研究

arXiv cs.CL ↗ · 昨天缓存

介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集，并开发了基于BERT的最先进模型，用于仇恨言论分析，包括分类、强度预测、目标识别和跨度检测。

0 人收藏 0 人点赞

#bert

多数票压制少数价值观：HateXplain中仇恨/冒犯边界的标注者分歧

arXiv cs.CL ↗ · 3天前缓存

本文发现，HateXplain中42.6%的标注者分歧集中在仇恨/冒犯边界，表明多数票压制了少数价值观，导致模型对有争议的输入输出错误但高度自信的预测。

0 人收藏 0 人点赞

#bert

ModernBERT模型的法律领域适应

arXiv cs.CL ↗ · 3天前缓存

本文探讨了ModernBERT模型在法律领域的领域适应，通过在美国法院意见上进行进一步预训练，取得了相对于基础模型的显著改进，并公开发布了检查点。

0 人收藏 0 人点赞

#bert

[新模型] - SupraSafety-18M · 微型内容审核模型

Reddit r/LocalLLaMA ↗ · 6天前

SupraLabs 发布了 SupraSafety-18M，这是一个微型的 18M 参数 BERT 风格的内容审核模型，基于 NVIDIA 的 Nemotron-3.5 数据集训练。它达到了 81.2% 的准确率，并能在边缘设备上高效运行。

0 人收藏 0 人点赞

#bert

比较BERT句子对分类与少样本大语言模型提示在德语气候新闻中检测威胁与解决方案框架

arXiv cs.CL ↗ · 2026-06-26 缓存

本文比较了微调BERT（gbert-large）与少样本大语言模型提示（Llama 4 Maverick）在德语气候新闻句子中检测威胁与解决方案框架的效果。BERT获得了更高的F1分数（0.83 vs 0.78），消融研究表明提供前一句上下文可提升性能。

0 人收藏 0 人点赞

#bert

基于方面的情感演化及其与多轮同行评审中评审轮次的相关性：一种深度学习方法

arXiv cs.CL ↗ · 2026-06-24 缓存

本文利用深度学习方法（LCF-BERT-CDM）研究了《自然·通讯》多轮同行评审中方面级情感的分布与演化，实现了82.65%的宏F1值，并发现随着评审轮次增加，正面情感上升而负面情感下降。

0 人收藏 0 人点赞

#bert

基于循环一致性机器翻译的多语言共指消解

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了一种新的多语言共指消解流水线，利用从英语到低资源语言的循环一致性机器翻译生成训练数据，并通过反向翻译和BERT相似性进行验证。在四种低资源语言上的实验表明，该方法带来了显著的性能提升，使得在没有现有语料库的语言中也能实现准确的共指消解。

0 人收藏 0 人点赞

#bert

预测与重建：自监督语言表示学习的联合目标

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了一种混合预训练目标，结合了JEPA潜在空间预测和MLM重建，用于语言模型，显示出改进的嵌入均匀性和语义-词汇平衡。

0 人收藏 0 人点赞

#bert

基于文本的因果推断方法：解析影响在线评价评分的多维因素

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了一种基于文本的因果推断方法，通过改进的 CausalBERT 模型，解析各独立维度（如学校管理、学业表现）对在线评价总体评分的影响，并在超过 60 万条美国 K-12 学校评价数据上进行了验证。主要改进包括：温度缩放、超参数优化以及可解释性方法，以减少混淆偏差。

0 人收藏 0 人点赞

#bert

词与道：面向德国医学自然语言处理的领域特定BERT预训练策略

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了ChristBERT，一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族，并在医学命名实体识别和文本分类任务上评估了三种领域适应策略（继续预训练、从头预训练和词汇适应），取得了最先进的结果。

0 人收藏 0 人点赞

#bert

面向明清之际文集个人书信标题的微调BERT分类器

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍Lepton，一个微调的BERT分类器，用于预测古典中文文集目录中的标题是私人信件还是序言（尤其是易混淆的赠序）。该模型利用了来自明末清初三十三位文人的5,438条手工标注标题。

0 人收藏 0 人点赞

#bert

利用大型语言模型进行情感分析：Decentraland MANA代币的多模态分析

arXiv cs.CL ↗ · 2026-05-21 缓存

本文使用基于BERT的大型语言模型对Decentraland的Discord社区进行情感分析，以提升MANA代币价格预测，并证明融合情感、交易量和市值信息的多模态LSTM模型优于仅使用价格信息的基线模型。

0 人收藏 0 人点赞

#bert

Transformer模型学习中产生的捷径策略损害其持续组合推理能力

arXiv cs.LG ↗ · 2026-05-08 缓存

本研究论文探讨了Transformer模型（特别是BERT）在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比，发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。

0 人收藏 0 人点赞

#bert

我在33,000份印度最高法院判决书（1950–2024）上训练了一个NER模型，CASE_CITATION的F1得分达到97.76%，比唯一的先前基线高出17个百分点 [P]

Reddit r/MachineLearning ↗ · 2026-05-07

发布了 en_legal_ner_ind_trf v0.1，这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型，在案例引用上取得了97.76%的F1得分，显著优于之前的基线。

0 人收藏 0 人点赞

#bert

面向威胁主体分析的日本网络评论作者归属基础研究

arXiv cs.CL ↗ · 2026-04-21

这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容，对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言，BERT-FT的表现最佳；但在将任务扩展至数百位作者的场景时，TF-IDF+LR在稳定性与效率上展现出更大优势。

0 人收藏 0 人点赞

#bert

蛋白质的散文——通过 Brian Hie 的作品学习品味与视野

ML at Berkeley ↗ · 2024-04-11

本文介绍了研究员 Brian Hie，重点阐述了他文学与计算机科学的独特背景如何启发了 ESM 的开发，这是一种用于蛋白质序列的类似 BERT 的模型。

0 人收藏 0 人点赞

bert

提交意见反馈