latency-reduction

#latency-reduction

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

arXiv cs.CL ↗ · 昨天缓存

LatentRAG 是一个新颖的框架，将智能体 RAG 的推理与检索过程转移至连续的潜在空间，在保持与显式方法相当的性能的同时，将推理延迟降低了约 90%。

0 人收藏 0 人点赞

#latency-reduction

OpenAI Blog ↗ · 2026-04-22 缓存

OpenAI详细说明了WebSocket和API优化如何将代理工作流的延迟减少了40%，使得GPT-5.3-Codex-Spark达到接近每秒1000个token。

0 人收藏 0 人点赞

#latency-reduction

OpenAI Blog ↗ · 2024-10-01 缓存

OpenAI 推出提示词缓存功能，这是一项自动特性，通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌，可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词，无需开发者进行集成更改。

0 人收藏 0 人点赞