标签
本文提出了llada.cpp,一种NPU感知推理框架,用于在智能手机上加速扩散大语言模型(dLLM)。它引入了三种技术——Multi-Block Speculative Decoding、Dual-Path Progressive Revision和Swap-Optimized Memory Runtime——以使dLLM推理与移动NPU特性对齐,实现了相比CPU基线17-42倍的延迟降低。
在Google Pixel 10 Pro上使用llama.cpp运行Gemma 12B模型,实现了每秒6.5个token的提示处理和每秒1.3个token的生成,功耗低于10瓦,展示了高效的设备端AI推理。
Trace是一款Mac应用,能在本地转录会议内容,无需上传音频,用户可在通话中标记重要时刻,并获取清晰的Markdown转录稿。
过去7个月中7场动手实践的开源网络研讨会合集,聚焦于使用本地AI和小型语言模型进行构建,全部在设备端运行。
本文认为,像 Harper 语法检查器这样的本地优先软件通过在设备上运行代码来避免扩展问题,使其能够在无需额外服务器成本的情况下轻松应对流量高峰。
Atomic Chat 现已在 Hugging Face 上作为本地应用提供,用户可以在自己的设备上私密、本地运行超过 200,000 个开放权重模型。
一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试,发现它经常漏词或返回不完整的转录文本,只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。
苹果发布了 Core AI,这是一个新框架,可在 Apple 硅设备(iPhone、iPad、Mac、Vision Pro)上完全运行 AI 模型,无需服务器调用。它包含一个内存安全的 Swift API、用于 PyTorch 的模型导出配方、一个优化器和调试工具,支持 Qwen、Mistral 和 SAM3 等模型。
苹果在 WWDC 上发布了 CoreAI,这是一款适用于 Apple Silicon 的全新端侧推理引擎,将取代 CoreML,并通过优化推理支持多达 200 亿参数的更大模型,重点面向手机和平板设备。
苹果发布了一款200亿参数的端侧模型,采用MoE变体,每次查询仅选择一次专家以放入NAND,从而在RAM受限的情况下实现推理。
苹果宣布推出下一代 Apple Intelligence 和 Siri,具有设备端 AI 处理、类似 Private Cloud Compute 的隐私增强功能,以及 Genmoji 和更智能的家居集成等新能力。
一位开发者测试了小型边缘模型(LFM2.5、Gemma 变体)在多个对话轮次中保持一个事实的能力,发现模型常常自信地否认知道仍在上下文中的信息,这给智能体架构带来了信任问题,并暗示了记忆与格式规范之间的权衡。
OpenMed 1.5.5 发布,支持9种语言的批量PII设备端脱敏,基于Apache 2.0开源,不到一年PyPI下载量突破600万。
谷歌发布Gemma 4 12B,这是一款紧凑型AI模型,专为仅需16GB RAM的本地笔记本使用而优化,具备多令牌预测以及针对文本、音频和图像的简化多模态能力。