来自 arXiv 的文章
提出了一种知识引导的两阶段迁移学习框架,采用轻量级GPT-2风格的Transformer,用于有限数据下的跨域轴承故障诊断,在仅使用10%标记数据的情况下实现了92.61%的准确率。
本文开发了一个傅里叶分析框架,用于研究群不变性下的数据增强,表明部分增强可以在近似误差趋近于零的情况下实现与完全增强相同的极小极大速率,同时还证明了精确不变性需要全群平均。
本文提出H-Res,一种通过塑形关联记忆的能量景观来适应大型Transformer模型的方法,无需修改权重或添加提示,保留了记忆容量,且性能优于LoRA。
本文提出了两种硬件无关的动态调度策略(一种无模型强化学习代理和一种即时近似预测方法),用于管理具有未知工作负载的无电池物联网设备中的任务执行,并使用真实太阳能数据的模拟框架对它们与现有方法进行了评估。
Ariadne 是一个仅解码器的逆向合成规划路线生成器,它将目标、可选约束和路线构建为提示-补全序列,与传统基于搜索的规划器相比,以更少的计算量实现了更优的性能。
一项基准研究,在三个公开数据集上对比了传统机器学习方法(随机森林、XGBoost、SVM、逻辑回归)与轻量级Transformer变体(DistilBERT、TinyBERT、MobileBERT)在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率,而TinyBERT-4L是最便于部署的Transformer模型。
本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。
本文提出了一种用于离散流匹配的时间重参数化累积强度外推(TR-CIE)采样器,通过重新缩放时间网格和重用缓存的模型输出,在有限函数评估次数下提高采样质量,并在文本和图像生成上进行了理论分析和实验。
本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性,发现其精度为零,并提出最大梯度范数作为更可靠的替代方案,在LLaDA系列模型上具有更高的精度和F1分数。
FedUP提出了一种一次性联邦遗忘框架,利用差分私有类质心引导的轻量级可插拔过滤器,无需多轮通信即可高效移除特定知识,实现了低延迟和内在可逆性。
NeuroSonic 提出了一种条件流匹配框架,用于从脑电图信号重建连续语音。通过学习一个确定性的概率流速度场,解决了神经数据与声学数据之间的结构不匹配问题。在跨受试者基准测试中,相比现有的GAN、扩散和均值流基线,该方法在感知质量上取得了高达26.3%的提升。
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
本文提出了RAVEN,这是一种混合专家框架,能够自适应地为每个输入样本确定时间上下文窗口,以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。
提出了一种基于信息论的框架,用于优化扩散模型中的无分类器引导调度,在ImageNet和COCO基准上实现了条件一致性与样本多样性之间更优的权衡。
这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。
本文介绍了持续IVON(CoVON)优化器,它将快速和慢速适应整合到变分持续学习中,以平衡稳定性和可塑性,在领域增量学习、持续预训练以及大型语言模型的微调中优于现有方法。
循环去噪作为一种新颖的提取攻击方法,通过反复对样本进行加噪和去噪,揭示了扩散模型中超稳定的记忆训练图像。该技术无需梯度或权重检查,对隐私审计具有重要意义。