continual-pretraining

#continual-pretraining

参数对齐缓解多语言专家语言模型中的灾难性遗忘

arXiv cs.CL ↗ · 2026-06-02 缓存

本文研究了持续预训练过程中多语言专家语言模型面临的灾难性遗忘问题，并提出了五种参数对齐策略（硬层冻结、软正则化、事后权重还原和模型合并），以在32种训练语言中最小化语言习得成本的同时减轻遗忘。

0 人收藏 0 人点赞

#continual-pretraining

迈向超越英语中心化开发的大语言模型

arXiv cs.CL ↗ · 2026-05-18 缓存

本文证明了大语言模型严重偏向英语，并表明持续预训练在将模型适配到其他语言（尤其是文化理解方面）时，并不比从头训练更具成本优势。

0 人收藏 0 人点赞

#continual-pretraining

将结构化生物医学知识注入语言模型：持续预训练与GraphRAG对比

arXiv cs.CL ↗ · 2026-04-21 缓存

# 将结构化生物医学知识注入语言模型：持续预训练与GraphRAG 来源：[https://arxiv.org/html/2604.16422](https://arxiv.org/html/2604.16422) ###### 摘要将领域特定知识注入模型对于使语言模型（LMs）适应生物医学等专业领域至关重要。尽管目前大多数方法依赖于非结构化文本语料库，但本研究探讨了两种利用UMLS元术语表（Metathesaurus）中结构化知识的互补策略：

0 人收藏 0 人点赞

#continual-pretraining

通过持续预训练扩展智能体

Papers with Code Trending ↗ · 2025-09-16 缓存

提出智能体持续预训练（Agentic Continual Pre-training）来构建智能体基础模型，在10个基准测试上使用AgentFounder-30B取得了最先进的结果，包括在BrowseComp-en上达到39.9%，在BrowseComp-zh上达到43.3%。

0 人收藏 0 人点赞

continual-pretraining

参数对齐缓解多语言专家语言模型中的灾难性遗忘

迈向超越英语中心化开发的大语言模型

将结构化生物医学知识注入语言模型：持续预训练与GraphRAG对比

通过持续预训练扩展智能体

提交意见反馈