标签
提议使用 Rust/WASM 在 CDN 边缘构建一个轻量级的开源 LLM 语义缓存,以降低延迟和 API 成本,并寻求社区对架构和用例有效性的反馈。
本文提出语义缓存蒸馏(SCD),一种带损失约束的框架,用紧凑的语义码替换原始KV缓存传输,在保持生成质量在oracle的5% F1内的同时,实现高达2.65倍的TTFT加速。