AI成本的很大一部分只是模型一遍又一遍地重读相同的文本。有趣的修复尝试,带有公开证明

Reddit r/ArtificialInteligence 工具

摘要

Corbenic AI声称为大语言模型提供无损KV缓存重用,允许存储的模型内存在不同机器和GPU代际之间逐比特恢复,并通过公开校验和进行验证。该项目包括一个开源的小模型,训练成本约600欧元,使整个流程可审查。

快速分享,并事先充分披露:这是我自己的项目,所以请随意保持怀疑。有一件事一直困扰着我。每次你向AI助手询问一份长文档时,它都会从头到尾重新读取整个文档。如果你就一份100页的报告提出十个问题,它基本上已经阅读了一千页。这种重复阅读是导致长时间AI对话变慢以及账单堆积的主要原因。当你说出来时,这个方法相当简单。与其每次都重新计算,不如存储模型已经读取的内容,并在需要时将其放回。我认为真正巧妙的部分是,恢复后的版本不仅仅是“足够接近”,而是逐比特完全相同,你可以通过校验和(与检查下载是否损坏相同的概念)自行确认。有几件事使它比普通缓存更胜一筹:* 你可以自己检查每一个声明。证明是公开哈希值,运行在Meta、阿里巴巴和Mistral的开放模型上,所以没有人要求你盲目信任它们。* 存储的内存可以在不同机器之间移动,甚至在不同GPU代际之间移动,并且仍然产生相同的输出。为了使整个流程可审查,他们还开源了一个小AI模型,训练成本约为600欧元。它很小,老实说并不试图击败大模型。它的存在只是为了让人们可以检查每一步。我会坦诚地说,这是一个狭窄的声明,而不是魔法。它不会让小模型变聪明。它特别关于重用AI的内存而不丢失任何东西。但“你不需要更大的大脑,你需要更好的记忆”这个角度让我印象深刻。包含所有链接和证明的文章在此:[https://tech.einnews.com/pr\_news/917089794/corbenic-ai-releases-technology-that-eliminates-ai-s-largest-cost](https://tech.einnews.com/pr_news/917089794/corbenic-ai-releases-technology-that-eliminates-ai-s-largest-cost) 真的很好奇这里的人怎么想,尤其是那些从事推理或KV缓存工作的人。这种无损重用在实践中真的有用吗,还是当前的设置(vLLM、前缀缓存之类的东西)已经覆盖了大部分需求?
查看原文

相似文章

我们构建了一个源码可用的LLM可靠性库(对研究/个人/内部评估免费),可在保持同等质量的前提下将推理成本降低一半,只需更改一个import语句即可采用 [P] [R]

Reddit r/MachineLearning

AgentCodec 是一个源代码可用的库,它将 28 种 LLM 可靠性技术(如重试、集成、生成器/判别器优化等)统一到单一兼容 OpenAI 的 API 下,并配备自适应路由器,在匹配质量的情况下可降低约 56% 的推理成本。该库采用通信理论框架,支持即插即用替代 OpenAI、Anthropic 和 Ollama 客户端。