training

#training

基于低秩进化策略的脉冲神经网络无梯度训练

arXiv cs.AI ↗ · 2026-06-01 缓存

介绍了一种名为 Eggroll 的低秩进化策略，用于脉冲神经网络的无梯度训练，在 N-MNIST 上减少内存和时间开销，同时达到有竞争力的准确率。

0 人收藏 0 人点赞

#training

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI ↗ · 2026-06-01 缓存

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

0 人收藏 0 人点赞

#training

@charles_irl: 为何要用很多字节，少量也能搞定？

X AI KOLs Following ↗ · 2026-05-30 缓存

Modal 的 Nan Jiang 宣布他们正在开发开源 RL 框架以支持前沿的开放权重模型，重点介绍了增量压缩以及在权重同步和跨集群训练方面依然存在的挑战。

0 人收藏 0 人点赞

#training

@ivanfioravanti: 有一点是肯定的：在Nvidia上做本地AI一切更容易——推理、训练、玩现有项目。…

X AI KOLs Following ↗ · 2026-05-30 缓存

开发者反思在Nvidia上轻松进行本地AI任务，与在Apple Silicon上成功让一切运转的满足感对比，倡导‘保持饥饿，保持愚蠢’的心态。

0 人收藏 0 人点赞

#training

偏差累积，方差抵消

Hacker News Top ↗ · 2026-05-29 缓存

本文证明，对BF16优化器状态使用随机舍入可以匹配FP32性能，因为无偏误差随时间抵消，而四舍五入则因累积偏差而停滞。一项使用MLP的实验表明，BF16+SR在减少内存使用的同时达到了与FP32相似的损失。

0 人收藏 0 人点赞

#training

从零开始在8GB显存上训练LLM。我开心

Reddit r/LocalLLaMA ↗ · 2026-05-29

构建了一个仓库，用于在8GB显存上从零训练一个微型语言模型（25M参数），支持MTP，但指出mHC和BitNet的局限性。

0 人收藏 0 人点赞

#training

十多年来，我们一直认为端到端反向传播是训练深度网络的唯一方法（1分钟阅读）

TLDR AI ↗ · 2026-05-29 缓存

Sakana AI 提出了 DiffusionBlocks，一种通过将前向传播解释为扩散去噪来分块训练神经网络的方法，与传统端到端反向传播相比，显著降低了内存需求。

0 人收藏 0 人点赞

#training

@FrancoisChauba1: 如果你在（未排序列表、冒泡排序过程、已排序列表）的轨迹上进行训练，你永远无法通过测试时计算（TTC）达到…

X AI KOLs Following ↗ · 2026-05-26 缓存

一篇批评文章指出，在人类生成的数据上训练LLM限制了它们通过测试时计算发现新颖解决方案的能力，而真正的AGI需要模型能够像AlphaZero那样更广泛地探索假设空间。

0 人收藏 0 人点赞

#training

@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗？我们很高兴推出ProRL Agent V2: Polar。A…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

NVIDIA发布了Polar，一个用于黑盒智能体强化学习的开源基础设施，支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。

0 人收藏 0 人点赞

#training

大家都在推销AI代理，但几乎没人推销让它们发挥作用的工作流程。

Reddit r/AI_Agents ↗ · 2026-05-26

文章认为，虽然很多人正在构建和销售AI代理，但真正的价值在于让它们发挥作用的工作流程和训练，而不是底层技术。

0 人收藏 0 人点赞

#training

Found in Conversation: LLMs 自我学习以缩小多轮对话差距

arXiv cs.CL ↗ · 2026-05-26 缓存

本文介绍了 Found in Conversation (FiC)，一个使用视图非对称自蒸馏（View-Asymmetric Self-Distillation）的训练框架，旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力，在多种模型系列和规模上实现了 92-100% 的恢复率。

0 人收藏 0 人点赞

#training