arXiv

来自 arXiv 的文章

基于LLM的两阶段Transformer框架：面向有限数据的跨域轴承故障诊断

arXiv cs.LG ↗ · 19小时前缓存

提出了一种知识引导的两阶段迁移学习框架，采用轻量级GPT-2风格的Transformer，用于有限数据下的跨域轴承故障诊断，在仅使用10%标记数据的情况下实现了92.61%的准确率。

0 人收藏 0 人点赞

数据增强：傅里叶分析视角

arXiv cs.LG ↗ · 19小时前缓存

本文开发了一个傅里叶分析框架，用于研究群不变性下的数据增强，表明部分增强可以在近似误差趋近于零的情况下实现与完全增强相同的极小极大速率，同时还证明了精确不变性需要全群平均。

0 人收藏 0 人点赞

大型语言模型中用于隐私和数据审计的自然标识符

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了自然标识符（NIDs），用于大型语言模型的事后隐私审计和数据集推断，无需重新训练或保留数据集。

0 人收藏 0 人点赞

并行流形引导：通过残差能量塑形实现大型关联记忆的高效适应

arXiv cs.LG ↗ · 19小时前缓存

本文提出H-Res，一种通过塑形关联记忆的能量景观来适应大型Transformer模型的方法，无需修改权重或添加提示，保留了记忆容量，且性能优于LoRA。

0 人收藏 0 人点赞

管理无电池物联网中未知工作负载的任务执行：一种硬件无关的评估

arXiv cs.LG ↗ · 19小时前缓存

本文提出了两种硬件无关的动态调度策略（一种无模型强化学习代理和一种即时近似预测方法），用于管理具有未知工作负载的无电池物联网设备中的任务执行，并使用真实太阳能数据的模拟框架对它们与现有方法进行了评估。

0 人收藏 0 人点赞

Project Ariadne: 提示条件驱动的合成规划路线生成

arXiv cs.LG ↗ · 19小时前缓存

Ariadne 是一个仅解码器的逆向合成规划路线生成器，它将目标、可选约束和路线构建为提示-补全序列，与传统基于搜索的规划器相比，以更少的计算量实现了更优的性能。

0 人收藏 0 人点赞

用于设备端故障检测的轻量级Transformer模型：资源受限部署的基准研究

arXiv cs.LG ↗ · 19小时前缓存

一项基准研究，在三个公开数据集上对比了传统机器学习方法（随机森林、XGBoost、SVM、逻辑回归）与轻量级Transformer变体（DistilBERT、TinyBERT、MobileBERT）在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率，而TinyBERT-4L是最便于部署的Transformer模型。

0 人收藏 0 人点赞

AsyncOPD：在策略蒸馏可以有多陈旧？

arXiv cs.LG ↗ · 19小时前缓存

本文提出 AsyncOPD，一种完全异步的在策略蒸馏流程，用于大语言模型，系统研究了陈旧策略数据的影响，并提出了估计器设计，使训练吞吐量提升 1.6-3.8 倍，同时保持相当的准确率。

0 人收藏 0 人点赞

面向离散流匹配的Time-Reparameterized Cumulative Intensity Extrapolation采样器

arXiv cs.LG ↗ · 19小时前缓存

本文提出了一种用于离散流匹配的时间重参数化累积强度外推(TR-CIE)采样器，通过重新缩放时间网格和重用缓存的模型输出，在有限函数评估次数下提高采样质量，并在文本和图像生成上进行了理论分析和实验。

0 人收藏 0 人点赞

当Top-1失效时：为掩码扩散语言模型校准LoRA监控器

arXiv cs.LG ↗ · 19小时前缓存

本文研究了top-1崩溃率作为短视界LoRA微调离散扩散语言模型的稳定性监控器的有效性，发现其精度为零，并提出最大梯度范数作为更可靠的替代方案，在LLaDA系列模型上具有更高的精度和F1分数。

0 人收藏 0 人点赞

FedUP: 基于质心引导的可插拔过滤器的一次性联邦遗忘

arXiv cs.LG ↗ · 19小时前缓存

FedUP提出了一种一次性联邦遗忘框架，利用差分私有类质心引导的轻量级可插拔过滤器，无需多轮通信即可高效移除特定知识，实现了低延迟和内在可逆性。

0 人收藏 0 人点赞

NeuroSonic：基于条件流匹配的脑电图到语音重建

arXiv cs.LG ↗ · 19小时前缓存

NeuroSonic 提出了一种条件流匹配框架，用于从脑电图信号重建连续语音。通过学习一个确定性的概率流速度场，解决了神经数据与声学数据之间的结构不匹配问题。在跨受试者基准测试中，相比现有的GAN、扩散和均值流基线，该方法在感知质量上取得了高达26.3%的提升。

0 人收藏 0 人点赞

基于块策略漂移门控的在线策略蒸馏

arXiv cs.LG ↗ · 19小时前缓存

本文提出了一种轻量级的基于块策略漂移门控方法，通过根据新旧学生概率变化对损失进行加权，改进了语言模型的在线策略蒸馏，在数学基准上取得了更高的推理准确性。

0 人收藏 0 人点赞

RAVEN：一种面向金融时间序列预测的体制感知变上下文专家网络

arXiv cs.LG ↗ · 19小时前缓存

本文提出了RAVEN，这是一种混合专家框架，能够自适应地为每个输入样本确定时间上下文窗口，以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。

0 人收藏 0 人点赞

使用自编码器快速建模FinFET

arXiv cs.LG ↗ · 19小时前缓存

提出了一种基于自编码器的机器学习框架，用于高效建模FinFET器件，以极少训练数据实现高精度。

0 人收藏 0 人点赞

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG ↗ · 19小时前缓存

提出Block-GTQ，一种感知RoPE的KV缓存量化比特分配方法，通过为高能量RoPE块分配更多比特，提升长上下文性能与内存效率。

0 人收藏 0 人点赞

基于信息论的无分类器引导与自适应调度优化

arXiv cs.LG ↗ · 19小时前缓存

提出了一种基于信息论的框架，用于优化扩散模型中的无分类器引导调度，在ImageNet和COCO基准上实现了条件一致性与样本多样性之间更优的权衡。

0 人收藏 0 人点赞

并非每项评估都需要运行

arXiv cs.LG ↗ · 19小时前缓存

这篇研究论文表明，前沿AI模型在133个基准测试上的得分近似于秩为2，即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress，一种在logit空间中进行矩阵补全的方法，仅需少数几个基准测试就能预测模型的完整得分表，从而显著降低评估成本。

0 人收藏 0 人点赞

快速与慢速变分持续学习

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了持续IVON（CoVON）优化器，它将快速和慢速适应整合到变分持续学习中，以平衡稳定性和可塑性，在领域增量学习、持续预训练以及大型语言模型的微调中优于现有方法。

0 人收藏 0 人点赞

循环去噪揭示扩散模型中的超稳定记忆

arXiv cs.LG ↗ · 19小时前缓存

循环去噪作为一种新颖的提取攻击方法，通过反复对样本进行加噪和去噪，揭示了扩散模型中超稳定的记忆训练图像。该技术无需梯度或权重检查，对隐私审计具有重要意义。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈