标签
本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。
本文提出MADS,一种利用来自大型语言模型的神经激活状态来选择多样化核心集进行指令微调的方法,表明仅15%的子集在多个基准测试上可以超越全数据集微调。
MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。
Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。
本文分析了指令微调中的噪声嵌入技术,解释了为何均匀噪声优于高斯噪声,并引入了SymNoise,一种对称噪声方法,在AlpacaEval上将LLaMA-2-7B的性能显著提升至超过NEFTune。
本文研究了指令调优的LLM如何在残差流中结合角色和任务规范,发现在答案形成阶段,这种结合近似可加,使得替换时KL散度极小,但该可加机制并不能解释完整的多token生成过程。
BeLink 提出了一种集合式指令微调的方案,用于生物医学实体链接中的生成式重排序,与现有最先进系统相比,准确率提升了3-24%,并且推理速度更快。
本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。
本文提出了Multi-Stream LLMs,它使用多个并行的输入/输出流,使模型能够同时读取和生成,从而解除顺序聊天格式的限制。
这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。
EmbGen 是一种合成数据生成流水线,它通过嵌入相似度将语料库重组为实体-描述配对,从而生成多样化的问答对,用于在专业领域微调小型语言模型,显著提升了事实准确性。
介绍了Peak-Detector框架,该框架利用指令微调的大语言模型对心电(ECG)、光电容积脉搏波(PPG)、心冲击图(BCG)和体震图(BSG)等生理信号进行鲁棒、跨模态且可解释的峰值检测。该方法将时间序列数据转换为压缩的“峰值表示”格式,并通过监督微调及后续多目标奖励的强化学习进行优化。
一项研究发现,基础语言模型在AI检测器中看起来像是人类写的,而经过指令微调的模型则不然。作者提出了一种名为HIP的改写管道,该管道能在不同模型规模下提高文本的人类相似度,同时保持语义。
对比神经元归因(CNA)识别出一组稀疏的MLP神经元,这些神经元能够区分有害提示和良性提示,从而在指令微调的大语言模型中实现有效的行为引导,同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上,同时保持了流畅性。
本文提出了多流大语言模型(Multi-Stream LLMs),将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成,解决了自主智能体应用中的瓶颈问题。
这篇学术论文分析了两代大语言模型与人类撰写新闻文本相比的句法和词汇多样性,发现较新的对齐模型表现出多样性降低的现象。
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
Talkie-1930-13b-it 是一个拥有 130 亿参数的指令微调语言模型,基于 1931 年前的文本进行训练,并使用 DPO 强化学习进行微调。
本文介绍了一种检索增强的大型语言模型框架用于金融情感分析,相比传统模型及ChatGPT、LLaMA等大型语言模型,在准确率和F1分数上实现了15%至48%的提升。