instruction-tuning

#instruction-tuning

基于历史文本的预训练语言模型

arXiv cs.CL ↗ · 6天前缓存

本文介绍了 TypewriterLM，一个参数规模为 7.24B 的语言模型，仅基于 1913 年之前的英文文本进行训练；同时介绍了 TypewriterCorpus（一个包含 540 亿 token 的清洗后历史语料库）以及指令微调数据集，以避免时间泄露和前瞻偏差。此外，还提出了一个基准测试套件 History-Event，用于评估时间定位能力和泄露情况。

0 人收藏 0 人点赞

#instruction-tuning

MADS: 模型感知的多样化核心集选择用于指令微调

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出MADS，一种利用来自大型语言模型的神经激活状态来选择多样化核心集进行指令微调的方法，表明仅15%的子集在多个基准测试上可以超越全数据集微调。

0 人收藏 0 人点赞

#instruction-tuning

去中心化指令微调：冲突感知拆分与权重合并

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

MERIT 引入了冲突感知拆分和权重合并，用于去中心化指令微调，实现了无需跨分区梯度同步的性能提升。

0 人收藏 0 人点赞

#instruction-tuning

Critic-R: 使用指令调优检索器与自然语言内省反馈改进Agentic Search

Hugging Face Daily Papers ↗ · 2026-05-30 缓存

Critic-R引入了一个框架，使用评判模型在推理智能体和检索器之间提供内省反馈，在推理和训练时间同时提升智能体搜索性能，且无需重新训练智能体。

0 人收藏 0 人点赞

#instruction-tuning

SLAP：用于在线策略数据高效指令微调的分层损失剪枝方法

arXiv cs.CL ↗ · 2026-05-26 缓存

提出SLAP，一种用于大型语言模型高效指令微调的新型数据选择框架，它评估批次可学习性并采用分层采样，以在减少20-40%训练数据的情况下实现卓越性能。

0 人收藏 0 人点赞

#instruction-tuning

理解与改进指令微调中的噪声嵌入技术

arXiv cs.LG ↗ · 2026-05-25 缓存

本文分析了指令微调中的噪声嵌入技术，解释了为何均匀噪声优于高斯噪声，并引入了SymNoise，一种对称噪声方法，在AlpacaEval上将LLaMA-2-7B的性能显著提升至超过NEFTune。

0 人收藏 0 人点赞

#instruction-tuning

作为X，做Y：指令调优的LLM中角色与任务的结合方式

arXiv cs.CL ↗ · 2026-05-25 缓存

本文研究了指令调优的LLM如何在残差流中结合角色和任务规范，发现在答案形成阶段，这种结合近似可加，使得替换时KL散度极小，但该可加机制并不能解释完整的多token生成过程。

0 人收藏 0 人点赞

#instruction-tuning

BeLink：生物医学实体链接结合生成式重排序

arXiv cs.CL ↗ · 2026-05-22 缓存

BeLink 提出了一种集合式指令微调的方案，用于生物医学实体链接中的生成式重排序，与现有最先进系统相比，准确率提升了3-24%，并且推理速度更快。

0 人收藏 0 人点赞

#instruction-tuning

幻觉作为承诺失败：大型语言模型在知晓答案的情况下仍然犯错

arXiv cs.CL ↗ · 2026-05-22 缓存

本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念，作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下，并且这一比例随着模型规模增加而上升。他们指出，指令调优强化了答案承诺，使得有用性和自信幻觉成为同一枚硬币的两面。

0 人收藏 0 人点赞

#instruction-tuning

Multi-Stream LLMs：关于并行/分离提示、思考、I/O的新论文

Hacker News Top ↗ · 2026-05-21 缓存

本文提出了Multi-Stream LLMs，它使用多个并行的输入/输出流，使模型能够同时读取和生成，从而解除顺序聊天格式的限制。

0 人收藏 0 人点赞

#instruction-tuning

基础模型被AI检测器视为人类

arXiv cs.CL ↗ · 2026-05-20 缓存

这篇论文揭示，GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写，而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP，一种与检测器无关的迭代改写流程，能在保持语义的同时提升文本的类人性。

0 人收藏 0 人点赞

#instruction-tuning

EmbGen：利用重组语料库进行教学

arXiv cs.CL ↗ · 2026-05-20 缓存

EmbGen 是一种合成数据生成流水线，它通过嵌入相似度将语料库重组为实体-描述配对，从而生成多样化的问答对，用于在专业领域微调小型语言模型，显著提升了事实准确性。

0 人收藏 0 人点赞

#instruction-tuning

Peak-Detector：基于指令微调大语言模型的生理信号可解释峰值检测

arXiv cs.LG ↗ · 2026-05-19 缓存

介绍了Peak-Detector框架，该框架利用指令微调的大语言模型对心电（ECG）、光电容积脉搏波（PPG）、心冲击图（BCG）和体震图（BSG）等生理信号进行鲁棒、跨模态且可解释的峰值检测。该方法将时间序列数据转换为压缩的“峰值表示”格式，并通过监督微调及后续多目标奖励的强化学习进行优化。

0 人收藏 0 人点赞

#instruction-tuning

基础模型在AI检测器中像人类

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

一项研究发现，基础语言模型在AI检测器中看起来像是人类写的，而经过指令微调的模型则不然。作者提出了一种名为HIP的改写管道，该管道能在不同模型规模下提高文本的人类相似度，同时保持语义。

0 人收藏 0 人点赞

#instruction-tuning

基于对比对搜索的靶向神经元调控

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

对比神经元归因（CNA）识别出一组稀疏的MLP神经元，这些神经元能够区分有害提示和良性提示，从而在指令微调的大语言模型中实现有效的行为引导，同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上，同时保持了流畅性。

0 人收藏 0 人点赞

#instruction-tuning

多流大语言模型：通过并行思维、输入与输出流解锁语言模型的潜力

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文提出了多流大语言模型（Multi-Stream LLMs），将基于顺序消息的指令微调转变为并行流处理。这种方法允许语言模型在多个并发数据流中同时进行读取、思考和生成，解决了自主智能体应用中的瓶颈问题。

0 人收藏 0 人点赞

#instruction-tuning

对齐更优，多样性下降？分析两代大语言模型的语法与词汇特征

arXiv cs.CL ↗ · 2026-05-08 缓存

这篇学术论文分析了两代大语言模型与人类撰写新闻文本相比的句法和词汇多样性，发现较新的对齐模型表现出多样性降低的现象。

0 人收藏 0 人点赞

#instruction-tuning

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

arXiv cs.CL ↗ · 2026-05-08 缓存

本文提出Badit方法，将大语言模型参数分解为正交的高奇异值LoRA专家，以在多任务指令微调中缓解跨任务干扰。

0 人收藏 0 人点赞

#instruction-tuning

talkie-lm/talkie-1930-13b-it

Hugging Face Models Trending ↗ · 2026-04-20 缓存

Talkie-1930-13b-it 是一个拥有 130 亿参数的指令微调语言模型，基于 1931 年前的文本进行训练，并使用 DPO 强化学习进行微调。

0 人收藏 0 人点赞

#instruction-tuning

通过检索增强大型语言模型提升金融情感分析

Papers with Code Trending ↗ · 2023-10-06 缓存

本文介绍了一种检索增强的大型语言模型框架用于金融情感分析，相比传统模型及ChatGPT、LLaMA等大型语言模型，在准确率和F1分数上实现了15%至48%的提升。

0 人收藏 0 人点赞

instruction-tuning

提交意见反馈