AI成本的很大一部分只是模型一遍又一遍地重读相同的文本。有趣的修复尝试，带有公开证明

Reddit r/ArtificialInteligence 2026/06/04 13:21 工具

kv-cache inference-optimization cost-reduction open-source llm-efficiency caching

摘要

Corbenic AI声称为大语言模型提供无损KV缓存重用，允许存储的模型内存在不同机器和GPU代际之间逐比特恢复，并通过公开校验和进行验证。该项目包括一个开源的小模型，训练成本约600欧元，使整个流程可审查。

快速分享，并事先充分披露：这是我自己的项目，所以请随意保持怀疑。有一件事一直困扰着我。每次你向AI助手询问一份长文档时，它都会从头到尾重新读取整个文档。如果你就一份100页的报告提出十个问题，它基本上已经阅读了一千页。这种重复阅读是导致长时间AI对话变慢以及账单堆积的主要原因。当你说出来时，这个方法相当简单。与其每次都重新计算，不如存储模型已经读取的内容，并在需要时将其放回。我认为真正巧妙的部分是，恢复后的版本不仅仅是“足够接近”，而是逐比特完全相同，你可以通过校验和（与检查下载是否损坏相同的概念）自行确认。有几件事使它比普通缓存更胜一筹：* 你可以自己检查每一个声明。证明是公开哈希值，运行在Meta、阿里巴巴和Mistral的开放模型上，所以没有人要求你盲目信任它们。* 存储的内存可以在不同机器之间移动，甚至在不同GPU代际之间移动，并且仍然产生相同的输出。为了使整个流程可审查，他们还开源了一个小AI模型，训练成本约为600欧元。它很小，老实说并不试图击败大模型。它的存在只是为了让人们可以检查每一步。我会坦诚地说，这是一个狭窄的声明，而不是魔法。它不会让小模型变聪明。它特别关于重用AI的内存而不丢失任何东西。但“你不需要更大的大脑，你需要更好的记忆”这个角度让我印象深刻。包含所有链接和证明的文章在此：[https://tech.einnews.com/pr\_news/917089794/corbenic-ai-releases-technology-that-eliminates-ai-s-largest-cost](https://tech.einnews.com/pr_news/917089794/corbenic-ai-releases-technology-that-eliminates-ai-s-largest-cost) 真的很好奇这里的人怎么想，尤其是那些从事推理或KV缓存工作的人。这种无损重用在实践中真的有用吗，还是当前的设置（vLLM、前缀缓存之类的东西）已经覆盖了大部分需求？

查看原文

AI成本的很大一部分只是模型一遍又一遍地重读相同的文本。有趣的修复尝试，带有公开证明

相似文章

@jiqizhixin: 如果AI的记忆不必随着每多一句话而膨胀呢？牛津大学、Technion、AITHYRA 等…

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

@paulabartabajo_：给AI工程师的建议——在自定义数据上微调的小型视觉语言模型，准确率堪比GPT-5……

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2062553418460479577

我们构建了一个源码可用的LLM可靠性库（对研究/个人/内部评估免费），可在保持同等质量的前提下将推理成本降低一半，只需更改一个import语句即可采用 [P] [R]

提交意见反馈