标签
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。
本文使用 GCC 16 基准测试了 C++26 反射在枚举转字符串转换中的编译时开销,并将其与 C++17 库和 X 宏预处理器技术进行了对比。
作者分析了 Stack Overflow 上的 262,715 个问题,以找出正则表达式的常见痛点,并展示了其新的正则表达式引擎 RE# 如何借助补集和交集运算来解决这些问题。
本文分析了 Rust 中 Tokio 的 mpsc 通道中意想不到的内存分配开销,揭示了由于内部块大小导致的每个通道的固定开销。文章展示了这一开销如何影响诸如 Agent Gateway 这样的大规模应用程序,并建议采用 futures-channel 等替代方案以提高内存效率。
GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解,显著优于Opus 4.7。
一位运行多个代理的用户报告称,升级到GPT-5.5后,模型突然在执行工具调用方面能力下降,更倾向于给出建议而非实际执行,推测OpenAI可能在进行限流以管理负载。
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。
Eldar Kurtic 带来了一项针对 TurboQuant 的综合研究,揭示了其超越初期评估之外的、在精度、延迟及吞吐量方面的真实世界影响。
Luce DFlash 通过在 SWA 层的草稿图中实现每层 K/V 截断,实现了 10-15% 的速度提升。
Python 3.15 引入了 profiling.sampling 模块,即 Tachyon,一种统计性性能剖析器,它会定期采样堆栈快照,开销极小,适用于开发和生产环境。
fc 是一款开源的 IEEE-754 64 位双精度浮点数流无损压缩器,对于结构化数据,其压缩率优于 zstd 和 fpzip,但编码速度较慢。
MTPLX v0.3 已发布,这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测(MTP)技术将解码速度提高一倍,并通过 Leviathan-Chen 接受机制维持分布准确性。
这篇技术文章解释了如何使用Erlang的:counters和:atomics模块进行高性能计数和共享可变状态,从而突破标准的进程隔离模型。内容涵盖BEAM运行时中的原子操作,如add_get、exchange和compare-and-swap(比较并交换)。
一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
React Doctor v2 是一款开源 CLI 工具,可分析 React 代码库中的性能问题、不良编码模式、不必要的重渲染以及架构缺陷。它支持 Next.js、Vite 和 React Native,可通过 npx 即时运行。
解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。