efficient-training

标签

Cards List
#efficient-training

频域储层计算

arXiv cs.LG · 10小时前 缓存

本文介绍FRESCO,一种完全在频域运行的回声状态网络架构,将密集递归更新的复杂度降至O(N),在基准测试上达到最先进性能的同时降低了计算成本。

0 人收藏 0 人点赞
#efficient-training

ARIA: 基于自适应区域重要性分配的条件扩散蒸馏

arXiv cs.LG · 昨天 缓存

本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。

0 人收藏 0 人点赞
#efficient-training

@andimarafioti:没有视觉编码器,VLM也能‘看见’吗?我们受Gemma 4 12B启发,花100美元训练了一个。在M3 Pro MacBook上的延迟:…

X AI KOLs Timeline · 2026-06-18 缓存

研究人员受Gemma 4 12B启发,仅花费100美元训练了一个无需视觉编码器的视觉语言模型,在M3 Pro MacBook上实现了端到端延迟降低30%。

0 人收藏 0 人点赞
#efficient-training

基于大型语言模型的生成式推荐中的隐式推理

arXiv cs.CL · 2026-06-15 缓存

本文提出PauseRec,一种用于基于LLM的生成式推荐的轻量级隐式推理范式,其性能优于显式思维链方法,同时显著降低训练和推理成本。

0 人收藏 0 人点赞
#efficient-training

LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练

arXiv cs.CL · 2026-06-10 缓存

提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。

0 人收藏 0 人点赞
#efficient-training

DOG-DPO:面向安全对齐的几何动态优化

arXiv cs.LG · 2026-06-09 缓存

DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞
#efficient-training

MaskAlign: Token子集表征对齐实现高效扩散训练

Hugging Face Daily Papers · 2026-06-07 缓存

MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。

0 人收藏 0 人点赞
#efficient-training

直接在DRAM中运行AI:浮点数解毒——纯逻辑如何释放学习的未来

Reddit r/artificial · 2026-06-02

BIN16在神经网络训练和推理中用布尔运算(XNOR+popcount)替代所有浮点运算,使得在现成的DRAM中直接计算成为可能,无需浮点数、梯度或超参数调优。仅用220行C代码,它就在一个训练周期内在MNIST上达到了82%的准确率。

0 人收藏 0 人点赞
#efficient-training

基于注意力机制的Token加权直接偏好优化

arXiv cs.CL · 2026-05-22 缓存

提出AttentionPO,一种基于Token加权的直接偏好优化方法,它利用LLM自身的注意力来估计Token权重,在AlpacaEval、MT-Bench和ArenaHard上提升对齐性能,且无需单独奖励模型。

0 人收藏 0 人点赞
#efficient-training

HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA · 2026-05-19 缓存

Sapient Intelligence发布了HRM-Text,一个1B参数的文本生成模型,仅用0.04万亿token训练(成本约1000美元),在多个推理基准上超越训练数据多100-1000倍的更大模型,标志着AI训练新范式的开始。

0 人收藏 0 人点赞
#efficient-training

New SOTA 1B model? HRM-text

Reddit r/LocalLLaMA · 2026-05-19 缓存

HRM-text 是 Sapient Intelligence 提出的 1B 参数分层推理语言模型,通过内部潜在空间高效思考,以极低训练成本实现超越多数同尺寸模型的性能。

0 人收藏 0 人点赞
#efficient-training

@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型,旨在提供强大的通用性能…

X AI KOLs Timeline · 2026-05-18 缓存

Sapient Intelligence 推出 HRM-Text,这是一个 1B 参数的推理语言模型,仅使用 40B tokens 训练,预算为 1000 美元,在大幅减少数据和计算需求的同时实现了具有竞争力的性能。

0 人收藏 0 人点赞
#efficient-training

始终学习,始终混合:高效简单的全时数据混合

arXiv cs.CL · 2026-05-18 缓存

本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。

0 人收藏 0 人点赞
#efficient-training

microsoft/Lens-Turbo

Hugging Face Models Trending · 2026-05-15 缓存

微软发布了Lens,一个拥有38亿参数的基础文本到图像模型,具备高效的训练和快速的高分辨率生成能力,采用密集字幕预训练和混合分辨率学习。

0 人收藏 0 人点赞
#efficient-training

EndPrompt: 通过终端锚定实现高效长上下文扩展

arXiv cs.CL · 2026-05-15 缓存

EndPrompt 提出了一种方法,仅使用短训练序列即可扩展大语言模型的上下文窗口,通过将终端提示锚定到目标长度的位置索引。该方法在基准测试中取得了优异结果,且计算量远少于全长度微调。

0 人收藏 0 人点赞
#efficient-training

microsoft/Lens

Hugging Face Models Trending · 2026-05-15 缓存

微软发布了Lens,一个38亿参数的基础文本到图像模型,专为高效训练和快速高分辨率生成而设计,以更少的计算量实现了具有竞争力的质量。

0 人收藏 0 人点赞
#efficient-training

GRACE: 梯度对齐的推理数据筛选方法,实现高效后训练

arXiv cs.AI · 2026-05-14 缓存

GRACE提出了一种梯度对齐方法,对单个推理步骤进行评分,以选择对后训练最有价值的数据,仅用20%的数据就达到了全部数据性能的108.8%。

0 人收藏 0 人点赞
#efficient-training

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2…

X AI KOLs Timeline · 2026-05-14

Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型训练过程,仅花费460万美元,并在8模型编程大战中击败GPT-5.5等夺得第一,展现小团队通过架构优化颠覆传统堆算力模式。

1 人收藏 1 人点赞
#efficient-training

jina-embeddings-v5-omni:通过冻结塔组合实现文本几何保持的多模态嵌入

arXiv cs.CL · 2026-05-12 缓存

本文介绍了 jina-embeddings-v5-omni,这是一套多模态嵌入模型,通过冻结塔组合技术将文本嵌入扩展至图像、音频和视频。该方法仅训练总权重的 0.35%,在保持文本几何结构的同时,以显著降低的计算成本实现了极具竞争力的最先进性能。

0 人收藏 0 人点赞
#efficient-training

CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈