caching

#caching

缓存感知的提示压缩：大语言模型API缓存的双层成本模型

arXiv cs.AI ↗ · 8小时前缓存

提出了一种缓存感知的提示压缩（CAPC）方法，该方法将查询无关的压缩与缓存相结合，以降低大语言模型API的成本，在Anthropic的Sonnet API和生产工作负载上展现出显著优于现有方法的节省效果。

0 人收藏 0 人点赞

#caching

模型路由很简单，直到它变得复杂。

Hugging Face Blog ↗ · 4天前缓存

IBM Research 解释了为什么智能体系统中的模型路由比简单的分类问题更复杂，指出缓存和隐藏因素（如实际工作负载成本和任务难度评估）使路由成为一个系统优化挑战。

0 人收藏 0 人点赞

#caching

以缓存友好方式在 GitHub Actions 中使用 uvx

Simon Willison's Blog ↗ · 6天前缓存

Simon Willison 分享了一种以缓存友好的方式在 GitHub Actions 中使用 uvx 的方法，通过设置环境变量并将其纳入缓存键，以避免重复下载 PyPI。

0 人收藏 0 人点赞

#caching

Claude Code在读取提示前发送33k tokens；OpenCode发送7k tokens

Hacker News Top ↗ · 2026-07-12

一项比较Claude Code和OpenCode的研究显示，Claude Code在读取提示前发送33k tokens，而OpenCode仅发送7k tokens，凸显了Claude Code在缓存策略和令牌使用上的显著低效。

0 人收藏 0 人点赞

#caching

llama.cpp b9966 针对 sm-tensor

Reddit r/LocalLLaMA ↗ · 2026-07-11

llama.cpp b9966 引入了一个针对 -sm tensor 模式的修复，该修复缓存了正则表达式模式，消除了解码线程中每个张量每个标记的 29 次重新编译，从而显著减少了 CPU 开销。

0 人收藏 0 人点赞

#caching

Show HN: Reame – 一个随着运行而变快的CPU推理服务器

Hacker News Top ↗ · 2026-07-11 缓存

Reame 是一个基于 llama.cpp 构建的 LLM 推理服务器，通过缓存提示前缀和生成的 n-gram 来优化 CPU 硬件，随着重复使用变得越来越快。它专为廉价硬件设计，如共享 vCPU 和免费套餐，适用于重复性的 AI 工作负载，例如文档提取和批量处理管道。

0 人收藏 0 人点赞

#caching

推测性缓存预热：在输入提示词时预热缓存，节省10-20秒等待时间

Reddit r/LocalLLaMA ↗ · 2026-07-10

推测性缓存预热在用户输入提示词时预先处理系统提示词和工具数组，从而在本地LLM推理中节省10-20秒的等待时间。该功能是用于本地AI的开源OpenFox框架的一部分，可在不破坏缓存一致性的前提下提升交互性。

0 人收藏 0 人点赞

#caching

@CycleDecoded: 离谱了！搜狐直接把自家压箱底的 Redis 云平台给开源了。这波算是把后端老哥的饭碗给端了级别的自动化。项目叫 CacheCloud，是搜狐视频内部扛过每天 800 亿次请求、18T 内存的怪物。现在直接扔在 GitHub 上，狂揽近 …

X AI KOLs Timeline ↗ · 2026-07-09 缓存

搜狐开源了其内部Redis云管理平台CacheCloud，支持单机、哨兵、集群模式，提供一键搭建、监控告警、弹性扩容等功能，已在GitHub获得近9000星，采用Apache-2.0协议。

0 人收藏 0 人点赞

#caching

@akshay_pachaar: https://x.com/akshay_pachaar/status/2074502882812952666

X AI KOLs Timeline ↗ · 2026-07-07 缓存

一份关于KV缓存管理的实践指南，介绍开源LMCache架构，该架构通过消除代理工作流中的冗余上下文处理，将输入令牌成本降低90%，并将LLM推理速度提升高达14倍。

0 人收藏 0 人点赞

#caching

为什么x64上的伪共享对齐应该是128字节

Lobsters Hottest ↗ · 2026-07-07 缓存

本文解释了为什么在x64上伪共享对齐应为128字节而不是通常的64字节，这是因为Intel Sandy Bridge的空间预取器会成对加载缓存行，文章提供了推理和一个展示改进的基准测试。

0 人收藏 0 人点赞

#caching

训练具有部分双向性的混合块扩散语言模型

arXiv cs.LG ↗ · 2026-07-07 缓存

本文提出了一种用于块扩散语言模型的混合Mamba-注意力架构，该架构将反向Mamba扫描限制在活跃去噪块内，从而实现了块间的精确缓存，并在长上下文生成中达到了高吞吐量。

0 人收藏 0 人点赞

#caching

当你已经有了 Postgres，还需要单独的系统吗？

Hacker News Top ↗ · 2026-07-06 缓存

全面论证：在考虑额外专用系统之前，PostgreSQL 本身已能满足大多数应用需求，包括缓存、搜索、任务队列和文档存储。

0 人收藏 0 人点赞

#caching

@no_stp_on_snek: 好的，边喝咖啡边读完了，不错。有几件事与我一直遇到的吻合：多样性是独立性乘以能力…

X AI KOLs Following ↗ · 2026-07-06 缓存

一份关于 Hermes Mixture-of-Agents (MoA) 研究结果的技术报告，包括基准测试结果、缓存经济学、GPU 拓扑结构研究以及未来开发路线图。

0 人收藏 0 人点赞

#caching

@dangerm00se: 我让 fable 做的主要事情是路由跨越本地 API 和 cerebras 的 moa 和 rlm 实验。让你的 agent 去…

X AI KOLs Following ↗ · 2026-07-06 缓存

作者分享了 Hermes Mixture-of-Agents 实验中的发现，包括投票器升级、GPU 拓扑和缓存经济学，表明本地前缀缓存可以使长代理会话几乎免费，并且两个独立的 GPU 实例优于单个分区实例。

0 人收藏 0 人点赞

#caching

FreeBSD 吃掉我的内存

Hacker News Top ↗ · 2026-07-03 缓存

一篇解释为什么 FreeBSD 看起来占用大量内存的文章，将其归因于磁盘缓存和虚拟内存管理，类似于 Linux 的“吃掉我的内存”现象。

0 人收藏 0 人点赞

#caching

提升VS Code中GitHub Copilot的令牌效率

Lobsters Hottest ↗ · 2026-07-02 缓存

VS Code团队详细介绍了最近对GitHub Copilot代理功能的优化，例如提示缓存和工具搜索，以提高令牌效率并在基于用量的计费模式下降低成本。

0 人收藏 0 人点赞

#caching

无评估可捕捉的智能体失败模式：使用缓存的过时事实

Reddit r/AI_Agents ↗ · 2026-07-01

讨论AI智能体可靠性中的一个盲点：缓存在获取时是真实的事实，但在使用时已经过时，导致一致但不正确的行为。提出将一致性（与源匹配）与时效性（源目前仍然真实）分开，并询问社区如何处理这个问题。

0 人收藏 0 人点赞

#caching

你实际使用的自主网络调研技术栈是什么？（完全本地，无云API）

Reddit r/LocalLLaMA ↗ · 2026-07-01

作者详细介绍了一个完全本地、无云API的AI代理网络调研技术栈，使用自托管SearXNG、持久缓存、TLS指纹抓取、无头浏览器回退以及本地重排序器，并邀请社区讨论类似方案。

0 人收藏 0 人点赞

#caching

OTCache：扩散模型中基于最优传输的几何感知缓存

arXiv cs.LG ↗ · 2026-07-01 缓存

OTCache是一个无需训练的框架，利用最优传输预测扩散模型的缓存调度，在FLUX.1、Qwen-Image和HunyuanVideo上实现了高达4.7倍的加速，同时提高了生成保真度。

0 人收藏 0 人点赞

#caching

@divaagurlxw: 如果我想让LLM响应低于一秒，我会研究的推理优化方法：1.KV-Caching 2.Speculative Decoding 3.FlashAtte…

X AI KOLs Timeline ↗ · 2026-06-29 缓存

一条推文列出了16种推理优化技术，用于实现低于一秒的LLM响应，包括KV缓存、推测解码、FlashAttention和各种并行化方法。

0 人收藏 0 人点赞

caching

提交意见反馈