caching

标签

Cards List
#caching

为Trellis引入RadixAttention

Lobsters Hottest · 昨天 缓存

Trellis引入RadixAttention,通过使用基数树缓存前缀令牌来优化LLM推理的预填充阶段,减少聊天和智能体会话中的冗余计算。

0 人收藏 0 人点赞
#caching

在多个协程之间共享单个Windows Runtime IAsyncOperation的结果,第3部分

The Old New Thing (Raymond Chen) · 6天前 缓存

本文讨论了一个C++/WinRT模式,用于缓存Windows Runtime IAsyncOperation的结果,包括处理失败的情况,以便多个协程可以共享缓存的结果或异常。

0 人收藏 0 人点赞
#caching

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG · 2026-05-27 缓存

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。

0 人收藏 0 人点赞
#caching

DeepSeek reasonix,DeepSeek 原生编码代理,高缓存、低成本

Hacker News Top · 2026-05-24

DeepSeek 发布了一款名为 DeepSeek reasonix 的原生编码代理,具有高缓存和低成本特点。

0 人收藏 0 人点赞
#caching

No Slop Grenade

Hacker News Top · 2026-05-21 缓存

Redis与Memcached的比较,涵盖数据结构、性能、可扩展性和运维考量,以帮助选择正确的缓存解决方案。

0 人收藏 0 人点赞
#caching

@lateinteraction: 智能体通常将部分上下文外部化:在编码智能体中的仓库,在RAG中的语料库,以及在RLM中的用户提示。N…

X AI KOLs Following · 2026-05-20 缓存

Joshua Gu的新研究表明,AI智能体在管理其上下文窗口中的一个小缓冲区作为外部上下文的缓存时表现更好,这挑战了将上下文完全推出提示符的常见做法。

0 人收藏 0 人点赞
#caching

哪些 FinOps 工具和策略对大规模 AI 代理运营真正有效?

Reddit r/AI_Agents · 2026-05-19

讨论大规模 AI 代理运营中成本管理的有效 FinOps 策略,涵盖模型路由、提示词精简、缓存等策略,以及按代理、工作流和客户跟踪成本的需求。

0 人收藏 0 人点赞
#caching

PEEK:长上下文LLM代理的上下文图方向缓存

Hugging Face Daily Papers · 2026-05-19 缓存

本文介绍了PEEK系统,该系统将关于重复出现的外部上下文的定向知识缓存为上下文图,使得LLM代理能够跨调用复用上下文知识,并在长上下文推理和信息聚合任务上显著提高效率和准确性。

0 人收藏 0 人点赞
#caching

FediMeteo、HAProxy 与不浪费 snac 线程的艺术

Lobsters Hottest · 2026-05-18 缓存

作者介绍了在 FediMeteo 服务中使用 HAProxy 缓存来减少 snac 线程上的不必要负载,此前已用 nginx 做过类似优化。该方法旨在通过让反向代理吸收重复的公共请求,保持轻量级 ActivityPub 服务器的高效。

0 人收藏 0 人点赞
#caching

@DeRonin_: 任何使用或学习智能体系统的人都应该读一读这个。我在每个新智能体项目前执行的安装顺序:1.…

X AI KOLs Following · 2026-05-17 缓存

一条分享智能体项目结构化安装顺序的推文:使用 direnv 配合密码管理器保障凭证安全,使用 litellm 或 portkey 作为模型代理管理成本和回退,使用 uv + git 在评估通过时提交以确保可复现性,使用 mitmproxy 实现 LLM 调用的全面可观测性。重点介绍了常见故障模式和安全漏洞。

0 人收藏 0 人点赞
#caching

KV缓存正成为推理的内存层级结构

Hacker News Top · 2026-05-17 缓存

文章讨论了KV缓存如何演变为LLM推理的内存层级结构,优化解码过程中的内存管理。

0 人收藏 0 人点赞
#caching

@Akintola_steve: https://x.com/Akintola_steve/status/2055620856802357587

X AI KOLs Timeline · 2026-05-16 缓存

一份实用的蓝图,用于设计能够处理100万并发用户的后端系统,涵盖架构决策如语言选择、负载均衡、数据库分片、多层缓存及弹性模式。

0 人收藏 0 人点赞
#caching

@lmstudio: 视觉模型的批处理功能在我们的最新MLX引擎更新中现已进入Beta测试阶段。此更新还带来了主要……

X AI KOLs Following · 2026-05-14 缓存

LM Studio 宣布其 MLX 引擎的 Beta 更新,引入了视觉模型的批处理功能和改进的缓存,以加速推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈