instruction-tuning

标签

Cards List
#instruction-tuning

序列学习的几何学:基于李括号的迁移顺序预测

arXiv cs.LG · 3天前 缓存

本文介绍了序列学习中基于李括号的迁移顺序预测方法,利用梯度场的交换子确定成对顺序,并可扩展到多个领域。实验表明,该方法在预测微调和指令调优的最优课程顺序方面具有高准确性。

0 人收藏 0 人点赞
#instruction-tuning

引导用户行为实现个性化多模态生成

arXiv cs.AI · 4天前 缓存

本文提出NaviGen框架,通过双标识符和两阶段SFT+RL流水线将用户行为编码为可执行指令,实现个性化多模态内容生成,在商品、游戏和短视频领域提升了个性化效果。

0 人收藏 0 人点赞
#instruction-tuning

LLMs中的潜在对齐漏洞:来自Gemma-3-12B的行为与隐藏状态证据——指令调优LLMs中预令牌隐藏状态偏移作为对齐策略遍历向量

Reddit r/AI_Agents · 5天前

本文研究指令调优LLMs(特别是Gemma-3-12B)中的一个对齐漏洞,通过展示预令牌隐藏状态偏移可以作为对齐策略遍历向量,从而可能绕过安全措施。

0 人收藏 0 人点赞
#instruction-tuning

模型预先阅读的内容会改变其后续的回答方式——你可以在隐藏状态中看到这一点

Reddit r/artificial · 5天前

本文报告了一个观察结果:在回答问题前阅读一篇长而结构化的文本,会改变模型后续的回答方式。该现象在Claude上得到行为证据支持,并在开放权重的Gemma模型上进行了机制分析,结果显示,指令微调变体中的隐藏状态具有可分离性,且概率分布更加清晰。

0 人收藏 0 人点赞
#instruction-tuning

你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞:来自Gemma-3-12B的行为和隐藏状态证据

Reddit r/ArtificialInteligence · 5天前

文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。

0 人收藏 0 人点赞
#instruction-tuning

DRIFT:通过在线策略数据归因优化指令数据

arXiv cs.LG · 2026-06-18 缓存

DRIFT提出了一种方法,利用在线策略影响函数来优化大型语言模型监督微调的训练数据分布,持续提升现有基线的性能上限。

0 人收藏 0 人点赞
#instruction-tuning

@MiaAI_lab: MTP 已上线,试试吧 https://huggingface.co/Mia-AiLab/Qwable-3.6-27b-MTP…

X AI KOLs Timeline · 2026-06-17 缓存

Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。

0 人收藏 0 人点赞
#instruction-tuning

VoidPadding: 让[VOID]处理掩码扩散语言模型中的填充,使[EOS]专注于语义终止

arXiv cs.CL · 2026-06-17 缓存

VoidPadding引入了一个[VOID]标记来处理掩码扩散语言模型中的填充,使[EOS]能够仅专注于语义终止。该方法显著提升了推理和编码基准测试的性能,同时减少了解码步骤。

0 人收藏 0 人点赞
#instruction-tuning

Mia-AiLab/Qwable-3.6-27b

Hugging Face Models Trending · 2026-06-15 缓存

Mia-AiLab 发布了 Qwable-3.6-27b,这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点,针对编程、技术辅助和结构化回复进行了优化。

0 人收藏 0 人点赞
#instruction-tuning

HarnessBridge: LLM智能体的可学习双向控制器

Hugging Face Daily Papers · 2026-06-11 缓存

介绍了HarnessBridge,一种可学习的双向控制器,它将智能体-环境接口参数化,用于LLM智能体。在Terminal-Bench和SWE-bench上,它以更少的计算开销达到了与专用框架相当的性能。

0 人收藏 0 人点赞
#instruction-tuning

哪种LoRA?多语言指令微调中LoRA技术有效性的实证研究

arXiv cs.CL · 2026-06-10 缓存

本文实证比较了多种LoRA变体在多语言指令微调中的表现,发现复杂变体在平衡跨语言迁移与知识保留方面相比基本LoRA并无显著优势。

0 人收藏 0 人点赞
#instruction-tuning

Lius:基于持续指令调优的库邦马来语教学语言学翻译模型

Hugging Face Daily Papers · 2026-06-10 缓存

本文介绍了Lius,这是一个使用持续指令调优(CIT)和四种指令族的印尼语到库邦马来语翻译模型。最佳变体Lius-Large-MT在低资源翻译任务上优于基线模型。

0 人收藏 0 人点赞
#instruction-tuning

@heyrimsha: 2023年3月,一位斯坦福助理教授和一个小型研究生实验室重现了……的行为

X AI KOLs Following · 2026-06-09 缓存

斯坦福助理教授Tatsunori Hashimoto和他的Tatsu Lab以不到600美元的成本用Alpaca重现了ChatGPT的行为,他们的AlpacaEval评估系统成为开源AI社区的标准。

0 人收藏 0 人点赞
#instruction-tuning

基于历史文本的预训练语言模型

arXiv cs.CL · 2026-06-03 缓存

本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。

0 人收藏 0 人点赞
#instruction-tuning

大语言模型对其自身回应过度自信

Hugging Face Daily Papers · 2026-06-02 缓存

本文探究为何经过指令微调的大语言模型对其自身回应表现出过度自信,并识别出一种“所有权偏差”,即模型对自我生成的答案赋予更高置信度。文章提出一种简单的推理时策略,将模型答案重新表述为用户输入,无需重新训练即可将校准度提升高达26%。

0 人收藏 0 人点赞
#instruction-tuning

MADS: 模型感知的多样化核心集选择用于指令微调

arXiv cs.CL · 2026-06-01 缓存

本文提出MADS,一种利用来自大型语言模型的神经激活状态来选择多样化核心集进行指令微调的方法,表明仅15%的子集在多个基准测试上可以超越全数据集微调。

0 人收藏 0 人点赞
#instruction-tuning

去中心化指令微调:冲突感知拆分与权重合并

Hugging Face Daily Papers · 2026-06-01 缓存

MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。

0 人收藏 0 人点赞
#instruction-tuning

Critic-R: 使用指令调优检索器与自然语言内省反馈改进Agentic Search

Hugging Face Daily Papers · 2026-05-30 缓存

Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。

0 人收藏 0 人点赞
#instruction-tuning

SLAP:用于在线策略数据高效指令微调的分层损失剪枝方法

arXiv cs.CL · 2026-05-26 缓存

提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。

0 人收藏 0 人点赞
#instruction-tuning

理解与改进指令微调中的噪声嵌入技术

arXiv cs.LG · 2026-05-25 缓存

本文分析了指令微调中的噪声嵌入技术,解释了为何均匀噪声优于高斯噪声,并引入了SymNoise,一种对称噪声方法,在AlpacaEval上将LLaMA-2-7B的性能显著提升至超过NEFTune。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈