talkie-lm/talkie-1930-13b-it

Hugging Face Models Trending 2026/04/20 10:43 模型

ai-model instruction-tuning hugging-face reinforcement-learning dpo vintage-dataset

摘要

Talkie-1930-13b-it 是一个拥有 130 亿参数的指令微调语言模型，基于 1931 年前的文本进行训练，并使用 DPO 强化学习进行微调。

Tags: en, base_model:talkie-lm/talkie-1930-13b-base, base_model:finetune:talkie-lm/talkie-1930-13b-base, license:apache-2.0, region:us

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:06

talkie-lm/talkie-1930-13b-it · Hugging Face

来源：https://huggingface.co/talkie-lm/talkie-1930-13b-it

talkie-1930-13b-it 是一款 130 亿参数的复古风格语言模型。它是 talkie-1930-13b-base 的指令微调版本，后者基于 2600 亿 token 的 1931 年前英语文本进行训练。

talkie-1930-13b-it 使用了一种新颖的指令-回复数据集进行微调，该数据集提取自 1931 年前的参考书籍，包括礼仪手册、百科全书和书信写作指南等。随后，模型通过强化学习（在线 DPO，使用 LLM 作为评判）进一步提升了指令遵循能力。

了解更多关于 talkie 的信息，请阅读我们的报告（https://talkie-lm.com/）。

运行 talkie 的参考代码可在 GitHub 上获取（https://github.com/talkie-lm/talkie）。

相似文章

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

arXiv cs.CL

本文提出Badit方法，将大语言模型参数分解为正交的高奇异值LoRA专家，以在多任务指令微调中缓解跨任务干扰。

令牌统计揭示多轮大语言模型交互中的对话漂移

arXiv cs.CL

本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。

跨分词器LLM蒸馏：基于字节级接口的方法

Hugging Face Daily Papers

本文提出字节级蒸馏（BLD），一种简单的跨分词器知识迁移方法，通过在共享的字节级接口上操作，在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。

When2Speak: 面向大语言模型的多方对话时序参与与话轮转换数据集

arXiv cs.CL

When2Speak是一个合成数据集及流程，用于训练LLM在多方对话中决定何时发言。在该数据集上微调显著改善了话轮转换，强化学习将漏干预率从50%降至约20%。

openbmb/VoxCPM2

Hugging Face Models Trending

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型，支持30种语言，拥有20亿参数，48kHz音频输出，并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

提交意见反馈