标签
Deepseek 宣布了 DSpark,这是一项新的 AI 突破,速度显著快于 MTP,视频中有详细解释。
一个llama.cpp的PR显著提升了Intel ARC GPU上的提示处理速度,基准测试显示在B580上从245t/s提升到462t/s。目前该改进仅适用于F16 KV量化,计划后续支持其他量化方式。
NVIDIA发布了LocateAnything,这是一个开源模型,通过同时预测所有坐标而非顺序预测,实现了约10倍的物体检测速度提升,在单块H100上达到12.7 FPS,并超越了320亿参数模型。
llama.cpp为Qwen3.6模型添加MTP支持,在A10G硬件上将生成速度提升78%,使本地模型可作为日常驱动使用。
有人推测,如果 Claude 5.5 速度提升 20 倍,用户将能够实时对话并编写代码,界面会随着语音输入同步更新。