training

标签

Cards List
#training

基于低秩进化策略的脉冲神经网络无梯度训练

arXiv cs.AI · 2026-06-01 缓存

介绍了一种名为 Eggroll 的低秩进化策略,用于脉冲神经网络的无梯度训练,在 N-MNIST 上减少内存和时间开销,同时达到有竞争力的准确率。

0 人收藏 0 人点赞
#training

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI · 2026-06-01 缓存

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

0 人收藏 0 人点赞
#training

@charles_irl: 为何要用很多字节,少量也能搞定?

X AI KOLs Following · 2026-05-30 缓存

Modal 的 Nan Jiang 宣布他们正在开发开源 RL 框架以支持前沿的开放权重模型,重点介绍了增量压缩以及在权重同步和跨集群训练方面依然存在的挑战。

0 人收藏 0 人点赞
#training

@ivanfioravanti: 有一点是肯定的:在Nvidia上做本地AI一切更容易——推理、训练、玩现有项目。…

X AI KOLs Following · 2026-05-30 缓存

开发者反思在Nvidia上轻松进行本地AI任务,与在Apple Silicon上成功让一切运转的满足感对比,倡导‘保持饥饿,保持愚蠢’的心态。

0 人收藏 0 人点赞
#training

偏差累积,方差抵消

Hacker News Top · 2026-05-29 缓存

本文证明,对BF16优化器状态使用随机舍入可以匹配FP32性能,因为无偏误差随时间抵消,而四舍五入则因累积偏差而停滞。一项使用MLP的实验表明,BF16+SR在减少内存使用的同时达到了与FP32相似的损失。

0 人收藏 0 人点赞
#training

从零开始在8GB显存上训练LLM。我开心

Reddit r/LocalLLaMA · 2026-05-29

构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。

0 人收藏 0 人点赞
#training

十多年来,我们一直认为端到端反向传播是训练深度网络的唯一方法(1分钟阅读)

TLDR AI · 2026-05-29 缓存

Sakana AI 提出了 DiffusionBlocks,一种通过将前向传播解释为扩散去噪来分块训练神经网络的方法,与传统端到端反向传播相比,显著降低了内存需求。

0 人收藏 0 人点赞
#training

@FrancoisChauba1: 如果你在(未排序列表、冒泡排序过程、已排序列表)的轨迹上进行训练,你永远无法通过测试时计算(TTC)达到…

X AI KOLs Following · 2026-05-26 缓存

一篇批评文章指出,在人类生成的数据上训练LLM限制了它们通过测试时计算发现新颖解决方案的能力,而真正的AGI需要模型能够像AlphaZero那样更广泛地探索假设空间。

0 人收藏 0 人点赞
#training

@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。A…

X AI KOLs Timeline · 2026-05-26 缓存

NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。

0 人收藏 0 人点赞
#training

大家都在推销AI代理,但几乎没人推销让它们发挥作用的工作流程。

Reddit r/AI_Agents · 2026-05-26

文章认为,虽然很多人正在构建和销售AI代理,但真正的价值在于让它们发挥作用的工作流程和训练,而不是底层技术。

0 人收藏 0 人点赞
#training

Found in Conversation: LLMs 自我学习以缩小多轮对话差距

arXiv cs.CL · 2026-05-26 缓存

本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。

0 人收藏 0 人点赞
#training

输入凸神经网络训练的一种提升方法

arXiv cs.LG · 2026-05-26 缓存

提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。

0 人收藏 0 人点赞
#training

体积微小,效果显著:大语言模型中的缩放向量研究

Hugging Face Daily Papers · 2026-05-26 缓存

本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。

0 人收藏 0 人点赞
#training

Cerebras芯片组似乎针对LLM应用进行优化

Reddit r/ArtificialInteligence · 2026-05-25

文章指出,Cerebras芯片针对LLM推理和训练进行了优化,而非通用AI工作负载,并提醒不要过度炒作其能在所有AI领域挑战NVIDIA的能力。

0 人收藏 0 人点赞
#training

现代汽车/Boston Dynamics 计划通过观看足球视频来训练人形机器人 Atlas,并将在名为《School of Football》的在线系列中记录其进展

Reddit r/singularity · 2026-05-25

Boston Dynamics 计划利用足球视频训练其人形机器人 Atlas,并在名为《School of Football》的在线系列中记录进展。

0 人收藏 0 人点赞
#training

@fiapp_pro: 正式宣布,codex GPT5.5 high 完全废了, 可能是因为 OpenAI 正在训练 5.6, 在 codex 的表现非常懒,胡说八道,上下文丢失, 必须要开 xhigh 才能恢复正常水平

X AI KOLs Timeline · 2026-05-25 缓存

用户报告OpenAI的Codex GPT-5.5 high模型表现下降,出现懒惰、胡说八道和上下文丢失等问题,怀疑是OpenAI正在训练GPT-5.6所致,需开启xhigh模式才能恢复正常。

0 人收藏 0 人点赞
#training

@elonmusk: Grok 基础模型 V9-Medium(1.5T)已完成训练。评估结果良好。在补充训练中添加了大量 Cursor 数据…

X AI KOLs Following · 2026-05-25 缓存

Elon Musk 宣布,Grok 基础模型 V9-Medium(1.5T 参数)已完成训练,评估表现强劲,将在微调和强化学习后于 2 到 3 周内公开发布。

0 人收藏 0 人点赞
#training

@percyliang: 我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。大约一个月前…

X AI KOLs Following · 2026-05-24 缓存

Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。

0 人收藏 0 人点赞
#training

@DanKornas:大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

X AI KOLs Timeline · 2026-05-23 缓存

Magma 是微软研究院推出的一个开源仓库,用于构建整合视觉、语言和行动的多模态 AI 智能体,提供模型链接、推理示例、训练说明和演示。

0 人收藏 0 人点赞
#training

@jino_rohit: 在开始学习LLMs的量化之前,你需要理解不同数字格式在内存中是如何表示的……

X AI KOLs Timeline · 2026-05-23 缓存

一篇帖子解释为什么理解内存中的数字格式对于学习LLM量化至关重要,涵盖梯度NaN调试、数值稳定性以及量化失真。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈