guidance-reliability

标签

#guidance-reliability

干预还是不干预：使用概率模型融合引导推理时对齐

arXiv cs.LG ↗ · 2026-06-11 缓存

本文介绍了BlendIn，一个推理时对齐框架，它使用概率模型融合来评估指导可靠性并按比例加权模型贡献，通过避免有害干预实现了高达50%的性能提升。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈