latency-reduction

标签

Cards List
#latency-reduction

LatentRAG:用于高效智能体 RAG 的潜在推理与检索

arXiv cs.CL · 昨天 缓存

LatentRAG 是一个新颖的框架,将智能体 RAG 的推理与检索过程转移至连续的潜在空间,在保持与显式方法相当的性能的同时,将推理延迟降低了约 90%。

0 人收藏 0 人点赞
#latency-reduction

在Responses API中使用WebSocket加速代理工作流

OpenAI Blog · 2026-04-22 缓存

OpenAI详细说明了WebSocket和API优化如何将代理工作流的延迟减少了40%,使得GPT-5.3-Codex-Spark达到接近每秒1000个token。

0 人收藏 0 人点赞
#latency-reduction

API 中的提示词缓存

OpenAI Blog · 2024-10-01 缓存

OpenAI 推出提示词缓存功能,这是一项自动特性,通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌,可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词,无需开发者进行集成更改。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈