标签
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
这篇学术论文分析了两代大语言模型与人类撰写新闻文本相比的句法和词汇多样性,发现较新的对齐模型表现出多样性降低的现象。
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
Talkie-1930-13b-it 是一个拥有 130 亿参数的指令微调语言模型,基于 1931 年前的文本进行训练,并使用 DPO 强化学习进行微调。