标签
Trellis引入RadixAttention,通过使用基数树缓存前缀令牌来优化LLM推理的预填充阶段,减少聊天和智能体会话中的冗余计算。
本文讨论了一个C++/WinRT模式,用于缓存Windows Runtime IAsyncOperation的结果,包括处理失败的情况,以便多个协程可以共享缓存的结果或异常。
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
DeepSeek 发布了一款名为 DeepSeek reasonix 的原生编码代理,具有高缓存和低成本特点。
Joshua Gu的新研究表明,AI智能体在管理其上下文窗口中的一个小缓冲区作为外部上下文的缓存时表现更好,这挑战了将上下文完全推出提示符的常见做法。
讨论大规模 AI 代理运营中成本管理的有效 FinOps 策略,涵盖模型路由、提示词精简、缓存等策略,以及按代理、工作流和客户跟踪成本的需求。
本文介绍了PEEK系统,该系统将关于重复出现的外部上下文的定向知识缓存为上下文图,使得LLM代理能够跨调用复用上下文知识,并在长上下文推理和信息聚合任务上显著提高效率和准确性。
作者介绍了在 FediMeteo 服务中使用 HAProxy 缓存来减少 snac 线程上的不必要负载,此前已用 nginx 做过类似优化。该方法旨在通过让反向代理吸收重复的公共请求,保持轻量级 ActivityPub 服务器的高效。
一条分享智能体项目结构化安装顺序的推文:使用 direnv 配合密码管理器保障凭证安全,使用 litellm 或 portkey 作为模型代理管理成本和回退,使用 uv + git 在评估通过时提交以确保可复现性,使用 mitmproxy 实现 LLM 调用的全面可观测性。重点介绍了常见故障模式和安全漏洞。
一份实用的蓝图,用于设计能够处理100万并发用户的后端系统,涵盖架构决策如语言选择、负载均衡、数据库分片、多层缓存及弹性模式。
LM Studio 宣布其 MLX 引擎的 Beta 更新,引入了视觉模型的批处理功能和改进的缓存,以加速推理。