标签
EmoDistill是一个离线框架,通过隐式Q学习进行情感选择,并基于LoRA的监督微调和评判策略优化进行情感表达,从而将情感谈判技能蒸馏到语言模型智能体中,在对抗性谈判中实现更高的效用。
PANDO 是一个网络代理框架,通过在线技能蒸馏提高效率,在 VisualWebArena 任务上减少 58-61% 的令牌使用量,同时优于基线。
仅凭一份 CLAUDE.md 文件,本周斩获 44k star 登顶 GitHub Trending,将 Andrej Karpathy 的 LLM 编程避坑指南浓缩为四大原则。