convex twin

Reddit r/AI_Agents 2026/06/10 20:34 工具

convex deterministic-replay debugging local-replay production-snapshots mutation-testing

摘要

作者构建了一个用于Convex后端的确定性重放引擎，支持使用生产快照进行本地调试以及控制异常测试，正在寻求用户反馈。

嘿，大家好！我一直在构建一个Convex Twin，它是Convex后端的确定性重放引擎。目标是让生产调试更轻松，你可以：在本地重放精确的执行序列针对生产快照进行调试使用受控异常测试突变我非常希望听到Convex用户的反馈，看看这是否解决了一个真正的痛点。特别想知道： -> 你是否遇到过难以在本地复现的生产错误？ -> 确定性重放是否会真正用于你的工作流程？

查看原文

相似文章

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

@no_stp_on_snek: 如果你想试试，可以在这里找到：

X AI KOLs Following

这是一个 llama.cpp 的分支，集成了 TurboQuant+，用于先进的 KV 缓存和权重量化，支持跨后端内核（Apple Silicon、NVIDIA CUDA、AMD ROCm、Vulkan），并被 LocalAI、Chronara 和 AtomicChat 用于生产环境。

Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成

Hugging Face Daily Papers

Pantheon360引入了一种3D感知360度视频扩散框架，该框架使用显式3D缓存来强制执行几何一致性，从而能够从稀疏360度输入中生成高保真数字孪生。

Domino：在推测解码中将因果建模与自回归草稿生成解耦

Hugging Face Daily Papers

Domino是一个推测解码框架，它将因果依赖建模与自回归草稿生成解耦，采用并行主干和轻量级因果精炼头，在Qwen3模型上实现了高达5.49倍的端到端加速。

动态KV缓存量化与按需加载mmproj/MTP：我的llama.cpp愿望清单

Reddit r/LocalLLaMA

一位开发者已为llama.cpp实现了一个概念验证的PR，通过HTTP端点添加了动态KV缓存量化功能，允许用户按需重新量化其KV缓存，而无需完全重新加载模型。该帖子还概述了一个愿望清单，包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

提交意见反馈