FAAST：通过闭式快速权重实现的前馈联想学习，用于测试时监督适应

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

FAAST提出了一种前馈方法，通过解析方式将标注样本编译为快速权重，无需反向传播即可实现高效的测试时监督适应，在保持性能的同时提升90%以上的速度和节省95%的内存。

调整预训练模型通常需要在反向传播的高训练成本与基于记忆或上下文学习的高推理开销之间进行权衡。我们提出了FAAST，一种前馈联想适应方法，通过单次解析将标注样本编译为快速权重。通过消除记忆或上下文依赖，FAAST实现了恒定时间推理，并将任务适应与预训练表示解耦。在图像分类和语言建模基准测试中，FAAST在适应时间减少90%以上的同时，达到或超过基于反向传播的适应性能，并且在节省高达95%内存的情况下与基于记忆/上下文的适应方法相竞争。这些结果表明，FAAST是一种高效、可扩展的监督任务适应解决方案，特别适用于资源受限的模型。我们在 https://github.com/baoguangsheng/faast 发布了代码和模型。

查看原文

查看缓存全文

缓存时间: 2026/05/14 16:19

论文页面 - FAAST：通过闭式快速权重的前向联想学习实现测试时监督适应

来源：https://huggingface.co/papers/2605.04651

摘要

FAAST通过前向计算将带标签样本编译为快速权重，从而实现高效的任务适应，相较于传统反向传播方法，在速度和内存节省方面均取得显著提升。

适应预训练模型通常需要在反向传播的高训练成本与基于记忆或上下文学习的高推理开销之间进行权衡。我们提出FAAST，一种纯前向联想适应方法，能够通过单次前向传播以解析方式将带标签样本编译为快速权重。通过消除记忆或上下文依赖，FAAST实现了常数时间推理，并将任务适应与预训练表示解耦。在图像分类和语言建模基准测试中，FAAST在适应时间上减少超过90%，性能达到或超越基于反向传播的适应方法；与基于记忆/上下文的适应方法相比，内存使用节省高达95%，且性能相当。这些结果表明，FAAST是一种高效、可扩展的监督任务适应方案，尤其适用于资源受限的模型。我们已在 https://github.com/baoguangsheng/faast 开源代码和模型。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04651)查看 PDF (https://arxiv.org/pdf/2605.04651)GitHub3 (https://github.com/baoguangsheng/faast)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.04651)

在你的智能体中获取此论文：

hf papers read 2605\.04651

没有最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

gshbao/faast-gpt2-xl 2B• 大约6小时前更新 • 11 (https://huggingface.co/gshbao/faast-gpt2-xl)

gshbao/faast-Qwen2.5-3B-Instruct 3B• 大约6小时前更新 • 14 (https://huggingface.co/gshbao/faast-Qwen2.5-3B-Instruct)

gshbao/faast-Qwen2.5-7B-Instruct 8B• 大约6小时前更新 • 1 (https://huggingface.co/gshbao/faast-Qwen2.5-7B-Instruct)

引用此论文的数据集0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.04651 以在此页面添加链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.04651 以在此页面添加链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面添加链接。

FAAST：通过闭式快速权重实现的前馈联想学习，用于测试时监督适应

论文页面 - FAAST：通过闭式快速权重的前向联想学习实现测试时监督适应

摘要

引用此论文的模型3

gshbao/faast-gpt2-xl 2B• 大约6小时前更新 • 11 (https://huggingface.co/gshbao/faast-gpt2-xl)

gshbao/faast-Qwen2.5-3B-Instruct 3B• 大约6小时前更新 • 14 (https://huggingface.co/gshbao/faast-Qwen2.5-3B-Instruct)

gshbao/faast-Qwen2.5-7B-Instruct 8B• 大约6小时前更新 • 1 (https://huggingface.co/gshbao/faast-Qwen2.5-7B-Instruct)

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

学习，快与慢：走向持续适应的LLMs

快慢学习：迈向持续适应的大语言模型 [R]

@daniel_mac8: 宝贝，醒醒。最新的持续学习突破出现了。fast-slow training (FST) 将模型参数视为“慢权重”…

@LakshyAAAgrawal: 从丰富的文本反馈（错误、轨迹、部分推理）中学习，对于LLM优化来说，优于仅使用标量奖励。…

联邦嵌套学习：用于测试时自适应的自指记忆协同训练

提交意见反馈