一种无需微调测试小模型技能迁移的盲视范式

Reddit r/LocalLLaMA 论文

摘要

提出一种使用Three.js的盲视觉范式,用于测试从大模型提取的过程性脚手架能否在无需微调的情况下提升小模型输出,并由盲评模型验证。

TL;DR:小模型并不笨,只是浅。我设计了一个跨领域、盲视觉的实验,观察大模型能否将其“规划纪律”压缩成一个可复用的脚手架(scaffold),使小模型在不经过任何微调的情况下变得更深入。选择Three.js作为测试平台,因为你无法用冗长的文本伪造结构;渲染结果会暴露一切。 我花了很多时间测试较小的模型(如90亿参数),注意到一个现象:它们并不完全是笨,而是浅。它们理解任务,但输出缺乏规划深度、层次结构和过程纪律。大模型自然应用的步骤结构,它们跳过了。这让我思考:大模型(模型A)能否将其过程能力压缩成一个可复用的结构,使较小模型(模型B)在无需微调的情况下表现得更深入?更重要的是,我们能否证明这种技能迁移是真实的,而不仅仅是过拟合? 我设计了一个实验范式,使用Three.js进行测试。选择Three.js是因为视觉上容易验证,但正确生成却很难。模型无法仅靠输出冗长文本来掩盖理解不足;渲染图像会暴露其真实的过程深度。 以下是实验基线。看这四张图: 图1 (D1A):模型A(大模型)为复杂电影场景(迈克尔·杰克逊、Pepe、特朗普和埃隆·马斯克表演《Thriller》)的输出。 图2 (D1B):模型B(小模型)对同一提示的输出。注意它理解了概念,但结果在视觉上浅显、结构脆弱且缺乏层次。 图3 (D2A):模型A针对完全不同、语义不同的领域的输出:“在Three.js中制作一个BMPT-72炮塔——低多边形,具有可识别的轮廓。” 图4 (D2B):模型B对炮塔的基线输出。再次显得浅显。 理论:我的假设是,模型A可以观察D1A和D1B之间的差距,提取出一个通用的“过程脚手架”(S)。S是一组指令、分解步骤或一种难度逻辑(例如:规划→几何→轮廓检查→细节器→渲染器→评判器)。关键规则:S不能包含D1的答案。它只能提取更深层次的构建原则。 真正测试(我尚未运行):为了证明S是可迁移的,我们将脚手架S应用于模型B,再次要求其生成BMPT-72炮塔(D2B_S)。 盲验证:这是关键。为了证明改进是真实的,我们使用一个全新的模型A实例(模型C)作为盲评模型。模型C对实验、脚手架或提示没有任何上下文。它只接收D2A、D2B和D2B_S的渲染图像。模型C被要求对图像进行定量评分(0-10分),评估标准包括视觉质量、可识别的轮廓、结构一致性和细节密度。 结论:如果从《Thriller》场景(D1)中提取的指令S,提高了模型B在炮塔领域(D2——与D1完全不同)的输出质量,那么指令S就不仅仅是过拟合到源示例。如果Score(D2A, D2B_S) > Score(D2A, D2B),即经过脚手架增强的小模型在视觉上更接近大模型的基线,而从未见过答案,那么S包含了平台内的可迁移过程知识。 我真心认为,这种视觉、盲测、跨领域的设置可以成为证明训练后技能泛化的一个优秀范式。这个设置合理吗?你认为它可能在哪里失败?
查看原文

相似文章