标签
宣布 Orinth 1.0 AEON ULTIMATE UNCENSORED,这是一个采用 BF16 和 NVFP4 量化的模型,适用于 DGX Spark/Blackwell 架构,声称在启用 DFlash 的情况下性能提升 200-300%。
据称 GPT-5.6 Sol 速度极快(750 t/s),成本效益高(仅为 Fable 成本的 25%),同时性能超越 Mythos,可能重置市场格局。
用户在一张RTX 3090上测试了Ornith-1.0-35B,发现其推理速度较快(提示处理1560 tok/s,生成约78 tok/s),但在Three.js任务上的编码表现始终不如Qwen 3.6,即使多次尝试也是如此。
文章探讨了如何通过利用CPU缓存行为来构造尽可能慢的数据访问模式以对整数数组求和,并证明精心设计的模式可能比随机访问慢30%以上。
一条推文详细介绍了在Nvidia DGX Spark上可以运行的最佳AI模型,包括Qwen 3.6和DeepSeek v4 Flash变体,以及单机和多机设置下的token速度和上下文长度。
本文在不同工作负载下对六种Go内存缓存设计进行了基准测试,发现使用256个锁的分片映射在单互斥锁和读写锁方法中表现最佳,尤其是在多核系统上。
通过在 ggml 后端中减少分割计算期间的同步来提升性能,新增异步 CUDA 复制功能,并让同步放宽机制在多个后端中更通用。
TurboQuant+ 更新带来更低比特率(4.125 bpw)、更快的解码速度以及减少约 34-35% 的 KLD。开发者正在各种硬件后端上寻找测试者。
Apache Flink 2.3 引入了 flink-s3-fs-native,这是一个新的无 Hadoop 依赖的 S3 文件系统插件,它提供最高两倍速度的检查点、精确一次写入的 Sink,并消除了 Hadoop 依赖和 CVE 分类处理。它已在多家大公司的生产环境中使用。
这篇博文解释了Nix中动态链接器搜索共享库导致devenv和其他Nix工具启动性能问题的原因,并探讨了包括静态链接在内的潜在解决方案。
OpenAI 宣布推出 GPT-5.6 Sol,这是一款专注于网络安全的模型,在漏洞研究与利用等长周期安全任务上提升了性能与效率。
推荐'codebase-memory',该工具能在3分钟内将整个代码库(如Linux内核)索引为图结构,供AI代理使用,减少token消耗和工具调用次数,同时提升答案质量。
一份详细的技术指南,解释 PgBouncer 作为 PostgreSQL 连接池的工作原理,涵盖其连接池模式、生产部署及常见陷阱。
开源AI推理在移动端达到300 tok/s,借助WebGPU框架,Liquid AI的LFM2.5 230M模型在浏览器中达到1,400 tok/s。
BunnyxStudio 花费3周时间移除了SwiftData,使得Hive应用启动速度显著提升,66000张图片的资料库几乎无需等待即可使用。
一位用户询问在PCIe 5.0 x8/x4与x8/x8模式下运行双GPU是否会对LLM推理速度产生显著影响。
一位用户在配备双 RTX 5090 的高端类消费级系统上测试了 unsloth 量化版 GLM-5.2 模型,达到了每秒 12 个 token。
Thomas Wouters 在 PyCon US 2026 上发表了关于自由线程 Python 的过去、现在与未来的演讲,该 Python 版本移除了全局解释器锁 (GIL),允许并行线程执行。
GLM-5.2在ARC-AGI-2上取得22.8%的成绩,在ARC-AGI-1上取得77%的成绩,每任务成本仅0.25美元,比2025年5月的最佳前沿得分提高了7.6倍。