performance

#performance

MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP（无 MTP，无量化）

Reddit r/LocalLLaMA ↗ · 4小时前

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

0 人收藏 0 人点赞

#performance

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline ↗ · 10小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞

#performance

枚举转字符串的开销：C++26 反射与旧方法对比

Hacker News Top ↗ · 14小时前缓存

本文使用 GCC 16 基准测试了 C++26 反射在枚举转字符串转换中的编译时开销，并将其与 C++17 库和 X 宏预处理器技术进行了对比。

0 人收藏 0 人点赞

#performance

Stack Overflow 上 262,715 个正则表达式问题尚未解答的谜团

Lobsters Hottest ↗ · 20小时前缓存

作者分析了 Stack Overflow 上的 262,715 个问题，以找出正则表达式的常见痛点，并展示了其新的正则表达式引擎 RE# 如何借助补集和交集运算来解决这些问题。

0 人收藏 0 人点赞

#performance

mpsc 通道的隐藏成本

Lobsters Hottest ↗ · 昨天缓存

本文分析了 Rust 中 Tokio 的 mpsc 通道中意想不到的内存分配开销，揭示了由于内部块大小导致的每个通道的固定开销。文章展示了这一开销如何影响诸如 Agent Gateway 这样的大规模应用程序，并建议采用 futures-channel 等替代方案以提高内存效率。

0 人收藏 0 人点赞

#performance

在一个困难的新SWE基准测试ProgramBench上，GPT5.5 high/xhigh首次解决了任务，显著优于Opus 4.7

Reddit r/singularity ↗ · 昨天

GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解，显著优于Opus 4.7。

0 人收藏 0 人点赞

#performance

有人昨天觉得GPT5.5变笨/变懒了吗？

Reddit r/openclaw ↗ · 昨天

一位运行多个代理的用户报告称，升级到GPT-5.5后，模型突然在执行工具调用方面能力下降，更倾向于给出建议而非实际执行，推测OpenAI可能在进行限流以管理负载。

0 人收藏 0 人点赞

#performance

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA ↗ · 昨天

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试，比较启用和未启用 MTP（多令牌预测）时的性能。结果显示，在 RTX5090 上使用 Qwen3.6-27B 模型时，启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞

#performance

@binsquares：天哪，smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp，性能接近……

X AI KOLs Following ↗ · 2天前缓存

用户 @binsquares 报告称，smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时，可获得接近 90% 的主机性能。

0 人收藏 0 人点赞

#performance

@_EldarKurtic: TurboQuant 近期备受瞩目，但随附的评测并未讲述全部故事。因此我们运行了……

X AI KOLs Following ↗ · 2天前缓存

Eldar Kurtic 带来了一项针对 TurboQuant 的综合研究，揭示了其超越初期评估之外的、在精度、延迟及吞吐量方面的真实世界影响。

0 人收藏 0 人点赞

#performance

@davideciffa：非常感谢 @csujun，Luce DFlash 现在速度提升了 10-15%，通过在 SWA 层的草稿图中实现每层 K/V 截断…

X AI KOLs Timeline ↗ · 3天前缓存

Luce DFlash 通过在 SWA 层的草稿图中实现每层 K/V 截断，实现了 10-15% 的速度提升。

0 人收藏 0 人点赞

#performance

Profiling.sampling – 统计性性能剖析器

Hacker News Top ↗ · 3天前缓存

Python 3.15 引入了 profiling.sampling 模块，即 Tachyon，一种统计性性能剖析器，它会定期采样堆栈快照，开销极小，适用于开发和生产环境。

0 人收藏 0 人点赞

#performance

Fc：一种针对浮点数流的无损压缩器

Hacker News Top ↗ · 3天前缓存

fc 是一款开源的 IEEE-754 64 位双精度浮点数流无损压缩器，对于结构化数据，其压缩率优于 zstd 和 fpzip，但编码速度较慢。

0 人收藏 0 人点赞

#performance

@Youssofal_：MTPLX V0.3 已发布！- 我意识到 M1 和 M2 Mac 并不支持 BF16，之前只是在模拟该格式，导致每秒生成的 tokens 数（TPS）显著下降……

X AI KOLs Timeline ↗ · 3天前缓存

MTPLX v0.3 已发布，这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测（MTP）技术将解码速度提高一倍，并通过 Leviathan-Chen 接受机制维持分布准确性。

0 人收藏 0 人点赞

#performance

在 Python 3.14 和 3.15 中回退增量垃圾回收

Hacker News Top ↗ · 4天前

本文讨论了决定在 Python 3.14 和 3.15 中回退增量垃圾收集功能。

0 人收藏 0 人点赞

#performance

使用:counters和:atomics模块在Erlang中快速计数

Hacker News Top ↗ · 4天前缓存

这篇技术文章解释了如何使用Erlang的:counters和:atomics模块进行高性能计数和共享可变状态，从而突破标准的进程隔离模型。内容涵盖BEAM运行时中的原子操作，如add_get、exchange和compare-and-swap（比较并交换）。

0 人收藏 0 人点赞

#performance

MTP 关键在于接受率

Reddit r/LocalLLaMA ↗ · 5天前

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP（多令牌预测）基准测试，发现它在代码生成方面表现出色（速度快 1.53 倍，接受率 66%），但对 JSON 输出不利（速度慢 50%，接受率仅 8%），对长篇散文则影响中性，表明当令牌接受率低于 50% 时，MTP 的优势便荡然无存。

1 人收藏 1 人点赞

#performance