guidance-reliability

标签

Cards List
#guidance-reliability

干预还是不干预:使用概率模型融合引导推理时对齐

arXiv cs.LG · 2026-06-11 缓存

本文介绍了BlendIn,一个推理时对齐框架,它使用概率模型融合来评估指导可靠性并按比例加权模型贡献,通过避免有害干预实现了高达50%的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈