efficient-training

#efficient-training

DOG-DPO：面向安全对齐的几何动态优化

arXiv cs.LG ↗ · 16小时前缓存

DOG-DPO 是一种无需训练的数据选择框架，它将偏好对视为结构化几何信号，将多数据集偏好几何分解为锚定子空间和残差子空间，以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞

#efficient-training

直接在DRAM中运行AI：浮点数解毒——纯逻辑如何释放学习的未来

Reddit r/artificial ↗ · 2026-06-02

BIN16在神经网络训练和推理中用布尔运算（XNOR+popcount）替代所有浮点运算，使得在现成的DRAM中直接计算成为可能，无需浮点数、梯度或超参数调优。仅用220行C代码，它就在一个训练周期内在MNIST上达到了82%的准确率。

0 人收藏 0 人点赞

#efficient-training

基于注意力机制的Token加权直接偏好优化

arXiv cs.CL ↗ · 2026-05-22 缓存

提出AttentionPO，一种基于Token加权的直接偏好优化方法，它利用LLM自身的注意力来估计Token权重，在AlpacaEval、MT-Bench和ArenaHard上提升对齐性能，且无需单独奖励模型。

0 人收藏 0 人点赞

#efficient-training

HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA ↗ · 2026-05-19 缓存

Sapient Intelligence发布了HRM-Text，一个1B参数的文本生成模型，仅用0.04万亿token训练（成本约1000美元），在多个推理基准上超越训练数据多100-1000倍的更大模型，标志着AI训练新范式的开始。

0 人收藏 0 人点赞

#efficient-training

New SOTA 1B model? HRM-text

Reddit r/LocalLLaMA ↗ · 2026-05-19 缓存

HRM-text 是 Sapient Intelligence 提出的 1B 参数分层推理语言模型，通过内部潜在空间高效思考，以极低训练成本实现超越多数同尺寸模型的性能。

0 人收藏 0 人点赞

#efficient-training

@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型，旨在提供强大的通用性能…

X AI KOLs Timeline ↗ · 2026-05-18 缓存

Sapient Intelligence 推出 HRM-Text，这是一个 1B 参数的推理语言模型，仅使用 40B tokens 训练，预算为 1000 美元，在大幅减少数据和计算需求的同时实现了具有竞争力的性能。

0 人收藏 0 人点赞

#efficient-training

始终学习，始终混合：高效简单的全时数据混合

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了OP-Mix，一种数据混合算法，它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合，从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案，而计算量仅为基线方法的一小部分；在预训练中将平均困惑度提升了6.3%，在持续学习场景中减少了66-95%的计算量。

0 人收藏 0 人点赞

#efficient-training

microsoft/Lens-Turbo

Hugging Face Models Trending ↗ · 2026-05-15 缓存

微软发布了Lens，一个拥有38亿参数的基础文本到图像模型，具备高效的训练和快速的高分辨率生成能力，采用密集字幕预训练和混合分辨率学习。

0 人收藏 0 人点赞

#efficient-training

EndPrompt: 通过终端锚定实现高效长上下文扩展

arXiv cs.CL ↗ · 2026-05-15 缓存

EndPrompt 提出了一种方法，仅使用短训练序列即可扩展大语言模型的上下文窗口，通过将终端提示锚定到目标长度的位置索引。该方法在基准测试中取得了优异结果，且计算量远少于全长度微调。

0 人收藏 0 人点赞

#efficient-training

microsoft/Lens

Hugging Face Models Trending ↗ · 2026-05-15 缓存

微软发布了Lens，一个38亿参数的基础文本到图像模型，专为高效训练和快速高分辨率生成而设计，以更少的计算量实现了具有竞争力的质量。

0 人收藏 0 人点赞

#efficient-training

GRACE: 梯度对齐的推理数据筛选方法，实现高效后训练

arXiv cs.AI ↗ · 2026-05-14 缓存

GRACE提出了一种梯度对齐方法，对单个推理步骤进行评分，以选择对后训练最有价值的数据，仅用20%的数据就达到了全部数据性能的108.8%。

0 人收藏 0 人点赞

#efficient-training

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2…

X AI KOLs Timeline ↗ · 2026-05-14

Moonshot AI创始人杨植麟发布40分钟视频，详细拆解Kimi K2模型训练过程，仅花费460万美元，并在8模型编程大战中击败GPT-5.5等夺得第一，展现小团队通过架构优化颠覆传统堆算力模式。

1 人收藏 1 人点赞

#efficient-training

jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 jina-embeddings-v5-omni，这是一套多模态嵌入模型，通过冻结塔组合技术将文本嵌入扩展至图像、音频和视频。该方法仅训练总权重的 0.35%，在保持文本几何结构的同时，以显著降低的计算成本实现了极具竞争力的最先进性能。

0 人收藏 0 人点赞

#efficient-training

CapVector：面向视觉-语言-动作模型的参数空间可迁移能力向量学习

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了 CapVector，这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化，该方法在显著提升模型性能与泛化能力的同时，大幅降低了计算开销。

0 人收藏 0 人点赞

#efficient-training

使用灯塔注意力的长上下文预训练

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法，它降低了因果Transformer长序列训练的计算复杂度，通过恢复阶段后的竞争性最终损失实现更快的预训练。

0 人收藏 0 人点赞

#efficient-training

Motif-Video 2B：技术报告

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

# 论文页面 - Motif-Video 2B：技术报告来源：[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者：、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构，以及高效训练方法，在显著降低参数量和训练数据用量的同时，实现了高质量文本到视频生成。

0 人收藏 0 人点赞

#efficient-training

LlamaFactory：100+语言模型的统一高效微调框架

Papers with Code Trending ↗ · 2024-03-20 缓存

LlamaFactory 是一个统一框架，通过基于 Web 的界面实现了100多个大型语言模型的高效微调，无需编写代码。

0 人收藏 0 人点赞

efficient-training

提交意见反馈