fine-tuning

#fine-tuning

电子表格中下一步操作预测的基准与框架

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

本文介绍了一个预测电子表格用户操作的基准，通过人工整理和在线评估方法，解决了编辑历史可用性和复杂操作空间方面的挑战。

0 人收藏 0 人点赞

#fine-tuning

Pyrecall 开源工具：检测 LLM 微调中的灾难性遗忘 [P]

Reddit r/MachineLearning ↗ · 2026-06-10

Pyrecall 是一款新的开源工具，能够检测 LLM 微调中的灾难性遗忘，通过快照训练前后的技能分数，标记性能回退，并回滚 LoRA 适配器。该工具完全在本地运行，无需外部 API。

0 人收藏 0 人点赞

#fine-tuning

当前AI最大的瓶颈在于部署层的模型迭代

Reddit r/artificial ↗ · 2026-06-10

文章指出，当前生产环境中AI的最大瓶颈并非初始模型部署，而是持续的迭代周期——将生产使用（推理日志、用户反馈）转化为用于微调和重新部署的数据集。文章强调了构建集成反馈循环而非一次性项目的重要性。

0 人收藏 0 人点赞

#fine-tuning

SenseNova U1 推出面向信息图的微调模型

Reddit r/LocalLLaMA ↗ · 2026-06-10

SenseNova U1 发布了其 U1-8B-MoT 基础模型的信息图专用微调版本，在信息图准确性、图表理解和文本渲染方面实现了显著的基准提升。

0 人收藏 0 人点赞

#fine-tuning

@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093

X AI KOLs Following ↗ · 2026-06-10 缓存

本文介绍了如何使用GRPO微调LLM（Qwen3-8B）以实现可靠的JSON结构化输出，将模式准确率从62%提升至82%，超越了GPT-4.1的58%。

0 人收藏 0 人点赞

#fine-tuning

使用ART微调多模态大语言模型：基于艺术强化训练

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

ART（基于艺术强化训练）通过梯度反向传播优化原始视觉输入，实现对冻结的多模态大语言模型的参数高效微调，其性能与LoRA相当，同时支持为vLLM等高吞吐引擎预编译的计算图。

0 人收藏 0 人点赞

#fine-tuning

双人探戈：面向安全LLM微调的耦合任务-参考选择

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出了DualSelect，一种耦合框架，它联合选择任务样本和安全参考，以在LLM微调过程中保持安全性而不损失任务效用。该方法在1B-8B LLM上相较于现有基线提升了至少5个安全评分点。

0 人收藏 0 人点赞

#fine-tuning

ConvMemory v2: 一种保持召回率的对话记忆检索Top-10证据重排序器

arXiv cs.CL ↗ · 2026-06-10 缓存

ConvMemory v2是一种保持召回率的重排序器，它利用微调后的交叉编码器对ConvMemory v1的前10个候选结果进行重新排序，在LoCoMo基准测试中提升了MRR指标，同时保持召回率不变。

0 人收藏 0 人点赞

#fine-tuning

ParaBridge：弥合语音语言模型中副语言感知与对话行为之间的鸿沟

arXiv cs.CL ↗ · 2026-06-10 缓存

ParaBridge是一种基于策略的自蒸馏方法，旨在弥合语音语言模型中副语言感知与对话行为之间的差距，在不依赖外部奖励的情况下显著提升安全性和共情能力。

0 人收藏 0 人点赞

#fine-tuning

顺序至关重要：LLaMA的序列微调实现连贯的自动化作文评分

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分，结果表明与独立或随机训练相比，连贯性和性能均有提升。

0 人收藏 0 人点赞

#fine-tuning

OpenRTLSet: 一个用于基于大语言模型的Verilog模块设计的完全开源数据集

arXiv cs.CL ↗ · 2026-06-10 缓存

OpenRTLSet推出了最大的完全开源硬件设计数据集，包含超过131,000个Verilog代码样本，支持对LLM进行微调以用于Verilog代码生成。

0 人收藏 0 人点赞

#fine-tuning

使用概率程序训练大型语言模型的归纳推理

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了基于程序的后验训练（PPT），一种利用LLM生成的概率程序来创建分布目标，以微调归纳推理的方法，从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。

0 人收藏 0 人点赞

#fine-tuning

在领域特定任务上，使用约3美元的API调用和零人工标注，将Qwen2.5-7B微调至Claude Haiku的96%性能

Reddit r/LocalLLaMA ↗ · 2026-06-10

提出DV-DPO方法，仅用约3美元的API调用和零人工标注，即可在领域特定任务上微调Qwen2.5-7B，通过对抗性交叉检验达到Claude Haiku综合性能的96%。

0 人收藏 0 人点赞

#fine-tuning

稳定（因而兼容）的表示即所需

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

介绍了通过d-Simplex固定分类器学习的稳定表示，以确保在顺序微调期间模型的兼容性，从而实现无需重新处理的连续检索服务。结合交叉熵损失和对比损失来捕获高阶依赖性。

0 人收藏 0 人点赞

#fine-tuning

@_philschmid: Google Colab CLI 和 Skills 已发布。从终端完全操控 Colab 运行时。 - GPU/TPU 配置 (colab --gpu A100) …

X AI KOLs Following ↗ · 2026-06-09 缓存

一款适用于 Google Colab 的全新 CLI 工具，支持从终端进行 GPU/TPU 配置、远程脚本执行和交互式 REPL 访问，内置 Agent Skills 功能，可自动完成模型微调等任务。

0 人收藏 0 人点赞

#fine-tuning

可以多小？LoRA微调270M-8B模型用于金融交易中的商户信息提取

arXiv cs.AI ↗ · 2026-06-09 缓存

本文是一项面向部署的研究，比较了24种模型变体（参数规模从270M到8B）在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现，像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数，仅比8B基线低0.35个百分点，同时显著降低了延迟和成本。

0 人收藏 0 人点赞

#fine-tuning

OmniMem: 面向流式音视频大模型的扰动感知记忆压缩

arXiv cs.AI ↗ · 2026-06-09 缓存

OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略，在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。

0 人收藏 0 人点赞

#fine-tuning

监督微调中涌现错位的特征空间监测

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出了一种特征空间监测方法，通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位，实现了0.990的AUROC，假阳性率和假阴性率低，优于无监督基线。

0 人收藏 0 人点赞

#fine-tuning

尾巴中的捷径：通过微调更新的后验谱压缩进行去偏

arXiv cs.LG ↗ · 2026-06-09 缓存

一种后验方法通过截断权重更新矩阵SVD的尾部来减少微调大语言模型中的虚假相关性。该方法在不重新训练或使用群体标签的情况下，将虚假群体差距最多减少5倍，精度损失小于2个百分点。

0 人收藏 0 人点赞

#fine-tuning

我对Parakeet 0.6B进行了医学ASR微调——开放权重，本地运行于Mac/CUDA/CPU

Reddit r/LocalLLaMA ↗ · 2026-06-09

Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR，发布了开放权重的模型Omi Med STT v1，在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。

0 人收藏 0 人点赞

fine-tuning

提交意见反馈