talkie-lm/talkie-1930-13b-it
摘要
Talkie-1930-13b-it 是一个拥有 130 亿参数的指令微调语言模型,基于 1931 年前的文本进行训练,并使用 DPO 强化学习进行微调。
查看缓存全文
缓存时间: 2026/05/08 09:06
talkie-lm/talkie-1930-13b-it · Hugging Face
来源:https://huggingface.co/talkie-lm/talkie-1930-13b-it
talkie-1930-13b-it 是一款 130 亿参数的复古风格语言模型。它是 talkie-1930-13b-base 的指令微调版本,后者基于 2600 亿 token 的 1931 年前英语文本进行训练。
talkie-1930-13b-it 使用了一种新颖的指令-回复数据集进行微调,该数据集提取自 1931 年前的参考书籍,包括礼仪手册、百科全书和书信写作指南等。随后,模型通过强化学习(在线 DPO,使用 LLM 作为评判)进一步提升了指令遵循能力。
了解更多关于 talkie 的信息,请阅读我们的报告(https://talkie-lm.com/)。
运行 talkie 的参考代码可在 GitHub 上获取(https://github.com/talkie-lm/talkie)。
相似文章
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。
跨分词器LLM蒸馏:基于字节级接口的方法
本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。
When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集
When2Speak是一个合成数据集及流程,用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换,强化学习将漏干预率从50%降至约20%。
openbmb/VoxCPM2
VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。