标签
本文介绍了一个预测电子表格用户操作的基准,通过人工整理和在线评估方法,解决了编辑历史可用性和复杂操作空间方面的挑战。
Pyrecall 是一款新的开源工具,能够检测 LLM 微调中的灾难性遗忘,通过快照训练前后的技能分数,标记性能回退,并回滚 LoRA 适配器。该工具完全在本地运行,无需外部 API。
文章指出,当前生产环境中AI的最大瓶颈并非初始模型部署,而是持续的迭代周期——将生产使用(推理日志、用户反馈)转化为用于微调和重新部署的数据集。文章强调了构建集成反馈循环而非一次性项目的重要性。
SenseNova U1 发布了其 U1-8B-MoT 基础模型的信息图专用微调版本,在信息图准确性、图表理解和文本渲染方面实现了显著的基准提升。
本文介绍了如何使用GRPO微调LLM(Qwen3-8B)以实现可靠的JSON结构化输出,将模式准确率从62%提升至82%,超越了GPT-4.1的58%。
ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。
本文提出了DualSelect,一种耦合框架,它联合选择任务样本和安全参考,以在LLM微调过程中保持安全性而不损失任务效用。该方法在1B-8B LLM上相较于现有基线提升了至少5个安全评分点。
ConvMemory v2是一种保持召回率的重排序器,它利用微调后的交叉编码器对ConvMemory v1的前10个候选结果进行重新排序,在LoCoMo基准测试中提升了MRR指标,同时保持召回率不变。
ParaBridge是一种基于策略的自蒸馏方法,旨在弥合语音语言模型中副语言感知与对话行为之间的差距,在不依赖外部奖励的情况下显著提升安全性和共情能力。
本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分,结果表明与独立或随机训练相比,连贯性和性能均有提升。
OpenRTLSet推出了最大的完全开源硬件设计数据集,包含超过131,000个Verilog代码样本,支持对LLM进行微调以用于Verilog代码生成。
本文介绍了基于程序的后验训练(PPT),一种利用LLM生成的概率程序来创建分布目标,以微调归纳推理的方法,从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。
提出DV-DPO方法,仅用约3美元的API调用和零人工标注,即可在领域特定任务上微调Qwen2.5-7B,通过对抗性交叉检验达到Claude Haiku综合性能的96%。
介绍了通过d-Simplex固定分类器学习的稳定表示,以确保在顺序微调期间模型的兼容性,从而实现无需重新处理的连续检索服务。结合交叉熵损失和对比损失来捕获高阶依赖性。
一款适用于 Google Colab 的全新 CLI 工具,支持从终端进行 GPU/TPU 配置、远程脚本执行和交互式 REPL 访问,内置 Agent Skills 功能,可自动完成模型微调等任务。
本文是一项面向部署的研究,比较了24种模型变体(参数规模从270M到8B)在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现,像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数,仅比8B基线低0.35个百分点,同时显著降低了延迟和成本。
OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略,在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。
本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。
一种后验方法通过截断权重更新矩阵SVD的尾部来减少微调大语言模型中的虚假相关性。该方法在不重新训练或使用群体标签的情况下,将虚假群体差距最多减少5倍,精度损失小于2个百分点。
Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR,发布了开放权重的模型Omi Med STT v1,在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。