@neural_avb: 我最好的新习惯是让我的代理记录我在训练模型时使用的所有技巧和秘籍。我有日志……
摘要
作者分享了一个习惯:使用代理记录所有训练技巧和秘籍,包括超参数调整和数据集升级,以保持事实日志供日后参考和教程制作。
查看缓存全文
缓存时间: 2026/06/18 20:21
我最近养成的最好习惯是让智能体记录下我训练模型时使用的所有技巧和捷径。
我记录了每次超参数调整、数据集升级及其结果。
这是一条非常有教育意义的事件链,以后可以随时回顾。而且在制作YouTube教程时,也能让内容保持真实客观。
AVB (@neural_avb): 我逐步构建了这个135M参数的小型推理SLM,依次经历了CPT、SFT、DPO,现在正在做RL。
在这个数据和模型流程上投入了好几天。它居然真的有效!能以300 tok/s的速度执行研究文本的窄域目标任务。
好了,如果你们不介意,我要去制作超棒的YouTube内容了!
相似文章
@omarsar0: 关于自我改进代理的非常好的建议。(收藏)这是我正在自己的实验中观察到的现象,关于编码...
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
@KingBootoshi: 我的新AI工作流程搞乱了我的作息,但太值了。我感觉我的工程生产力又提升了一个层次……
作者分享了自己采用单一Codex智能体配合/goal模式的新编码工作流程的个人经历,他认为这比使用GPT-5.5和Opus 4.8等新模型的多智能体设置更优越。
@rohanpaul_ai: Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而不是原始日志时,其性能会显著提升……
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
@BrainsAndTennis: https://x.com/BrainsAndTennis/status/2065190286519906657
一条技术性 Twitter 线程,分享构建高性能垂直 AI Agent 的原则,以 Shortcut 电子表格 Agent 为例。核心见解:将上下文视为分层缓存(L1/L2/L3),以在分布中最小化每个任务的成本。
@vivek_2332:发现了一篇深入探讨 @AnthropicAI 如何在 RL 训练中识别和缓解奖励黑客攻击的优秀博客。推荐…
本文总结了一篇博文,详细阐述了 Anthropic 在强化学习(RL)训练期间识别和缓解奖励黑客攻击的方法,包括隐藏测试、压力测试集、稀疏自编码器(SAE)监控以及环境重新设计。