fine-tuning

#fine-tuning

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

本文介绍了一种检索增强的视觉-语言-动作策略，通过使用预训练模型和索引演示，消除了每个任务的微调，实现了高效的跨本体泛化和测试时的任务适应。

0 人收藏 0 人点赞

#fine-tuning

对2023年初的模型在两个指令遵循数据集上进行微调后效果变得很好

Reddit r/LocalLLaMA ↗ · 2026-06-12

一个在550步内对两个指令遵循数据集进行微调的Pythia-6.9B模型，具备了13种语言的能力，相比基础模型有显著提升。

0 人收藏 0 人点赞

#fine-tuning

@FinanceYF5: Claude Fable 5用3小时，完成了他4个月的fine-tuning工作。 7阶段完整pipeline、TUI界面、HTML dashboard、39个专项技能、8700行代码、235个测试。 98%完成度，one-shot。 4…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Claude Fable 5在3小时内完成了一个通常需要4个月的fine-tuning项目，包括完整的7阶段pipeline、TUI界面、HTML仪表盘、39个专项技能、8700行代码和235个测试，达到98%完成度，one-shot完成。

0 人收藏 0 人点赞

#fine-tuning

AAbAAC：自身免疫信息提取的标注语料库

arXiv cs.AI ↗ · 2026-06-12 缓存

AAbAAC是一个手动标注的语料库，包含115篇PubMed摘要，用于自身免疫信息提取，重点关注自身免疫疾病和自身抗体等实体。研究表明，在该语料库上进行微调后，命名实体识别（NER）性能有所提升。

0 人收藏 0 人点赞

#fine-tuning

LoRA优化中缩放因子的潜藏威力

arXiv cs.AI ↗ · 2026-06-12 缓存

本文揭示了LoRA优化中缩放因子α比学习率更具影响力，并提出了LoRA-α框架，通过将α恢复到其理论原则区间，提升了性能并简化了超参数搜索。

0 人收藏 0 人点赞

#fine-tuning

PolyAlign: 条件化人类分布对齐

arXiv cs.CL ↗ · 2026-06-12 缓存

PolyAlign是一个分布感知的对齐框架，它将语言模型对齐到特定上下文的人类回复分布，而不是单一的全局风格，从而提升了双语环境下的自然性和忠实度。

0 人收藏 0 人点赞

#fine-tuning

面向聊天机器人微调的直接偏好优化：一项实证研究

arXiv cs.CL ↗ · 2026-06-12 缓存

本文对直接偏好优化（DPO）在大型语言模型微调中的应用进行了实证研究，表明DPO简化了训练流程，在实现竞争性性能的同时，也解决了训练不稳定性问题。

0 人收藏 0 人点赞

#fine-tuning

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

arXiv cs.CL ↗ · 2026-06-12 缓存

使用QLoRA对小型LLM（3B-7B）进行生物医学声明验证的微调，以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数，并揭示了SciFact中的一个结构伪影。该研究表明，在结构合理的数据上进行训练可实现稳健的跨域迁移。

0 人收藏 0 人点赞

#fine-tuning

MentalMARBERT：面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出了MentalMARBERT，一个面向社交媒体文本中阿拉伯语心理健康障碍检测的领域自适应语言模型。该框架采用领域自适应预训练和两阶段微调方法，在新构建的包含50,670条推文的阿拉伯语心理健康数据集上实现了0.877的准确率和0.861的宏F1分数。

0 人收藏 0 人点赞

#fine-tuning

FastContext：训练高效的编码代理仓库探索器

Papers with Code Trending ↗ · 2026-06-12 缓存

FastContext引入了专门的探索模型，将LLM代理中的仓库探索与代码求解分离，将Token消耗降低多达60%，同时提升软件工程基准上的解决率。

0 人收藏 0 人点赞

#fine-tuning

ClinHallu：用于诊断医疗多模态大语言模型推理中阶段性幻觉的基准

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

ClinHallu是一个基准，通过将推理分解为视觉识别、知识回忆和推理整合阶段，并使用轨迹监督微调来减少错误，从而诊断和缓解医疗多模态大语言模型中的幻觉。

0 人收藏 0 人点赞

#fine-tuning

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

HyVLA-0.5 是一个端到端机器人学习系统，整合了数据收集、模型设计、预训练、微调和强化学习，用于真实世界部署。

0 人收藏 0 人点赞

#fine-tuning

预测性数据调试：在训练前揭示并塑造模型所学（11分钟阅读）

TLDR AI ↗ · 2026-06-12 缓存

这项研究介绍了一种方法，利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为，从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率，并集成到了Goodfire的Silico平台中。

0 人收藏 0 人点赞

#fine-tuning

Gemma 4 四重发布：12B、12B QAT、26B-A4B QAT 和 31B QAT 无审查异端版

Reddit r/LocalLLaMA ↗ · 2026-06-11 缓存

llmfan46 在 Hugging Face 上发布了一组四重未经审查、微调并量化的 Gemma-4 模型，包括 12B、26B-A4B 和 31B 变体，提供 QAT 和 GGUF 格式。

0 人收藏 0 人点赞

#fine-tuning

新模型发布：Nex-N2 Pro 397B 与 Nex-N2 Mini 35B

Reddit r/LocalLLaMA ↗ · 2026-06-11

发布基于 Qwen3.5 的微调版本：Nex-N2 Pro 397B 和 Nex-N2 Mini 35B，基准测试表现强劲。

0 人收藏 0 人点赞

#fine-tuning

@_rohit_tiwari_: 这本230页的书揭示了LLM的秘密。https://drive.google.com/file/d/1ZqV0wByb65_wvzWUbaLw6pCbtXgyXDHG/view……

X AI KOLs Timeline ↗ · 2026-06-11 缓存

一本230页的书，全面涵盖LLM概念，包括预训练、微调、对齐和提示技术。

0 人收藏 0 人点赞

#fine-tuning

架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力

arXiv cs.AI ↗ · 2026-06-11 缓存

本文介绍 SWARR，一种两阶段方案，结合监督微调和强化学习，使滑动窗口注意力模型适应数学推理，表明强化学习能缩小其与自注意力的性能差距，同时保持效率优势。

0 人收藏 0 人点赞

#fine-tuning

ISE：一种基于执行的面向多轮操作系统代理轨迹的合成方案

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了一种名为ISE的三阶段合成范式，用于生成带有基于执行的多轮操作系统代理轨迹，并证明在生成的ISE-Trace数据集上进行微调能显著提升代理在ClawEval上的性能。

0 人收藏 0 人点赞

#fine-tuning

面向大型语言模型的 Compatibility-Aware Dynamic Fine-Tuning

arXiv cs.CL ↗ · 2026-06-11 缓存

介绍 Compatibility-Aware Dynamic Fine-Tuning (CADFT)，这是 Dynamic Fine-Tuning 的扩展，在 LLM 监督微调中控制样本级优化方差，从而提高稳定性和泛化能力。

0 人收藏 0 人点赞

#fine-tuning

电子表格中下一步操作预测的基准与框架

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

本文介绍了一个预测电子表格用户操作的基准，通过人工整理和在线评估方法，解决了编辑历史可用性和复杂操作空间方面的挑战。

0 人收藏 0 人点赞

fine-tuning

提交意见反馈