标签
Meta为其智能眼镜上的设备端对话焦点功能引入了争议性的速率限制和每月19.99美元的订阅费,而该功能此前无需联网或服务器成本即可使用。
工程师 Edward Coristine 和 Tai Groot 发布了 Rampart,这是一个开源 AI 隐私模型,用于设备端 PII(个人身份信息)编辑,完全在浏览器中运行,由 National Design Studio 开发。
成立一年后,OpenMed已实现3.4亿次模型下载,提供超过1500个采用Apache 2.0许可的开放医学模型,其中650+个能够在iPhone上本地运行。
描述了一种'distill-on-idle'流水线,它使得一个4B参数的本地模型能够作为设备端记忆助手有效运行,展示了小型模型的实际应用。
介绍 AnySimLite,一种用于设备端语音相关分类任务的轻量级相似度编码器,在模型大小不到 qLLaMA-LoRA-7B 基线的 1/250 的情况下,实现了最先进或具有竞争力的性能。
Liquid AI 发布 LFM2.5-230M,这是一款轻量级基础模型,可在从云端 GPU 到 CPU 乃至 Raspberry Pi 的设备上运行,在工具使用和数据提取任务上表现出色。
一条推文主张持续学习将在本地运行,并解释了为什么主要AI实验室避免讨论它:因为数据保留在设备上。
Eyal Toledano 使用纯 WebGPU/WGSL 构建了一个LLM推理引擎,可在浏览器和Node中无API密钥地本地运行,并正寻求同行评审。
Liquid AI 的 LFM2.5-230M 模型在 Unitree G1 机器人上展示了多步工具调用能力,完全在 NVIDIA Jetson Orin 设备端运行,充当技能选择层。
Liquid AI发布了LFM2.5-230M,这是一个拥有230M参数的小型模型,针对CPU、NPU和GPU上的快速推理进行了优化,适用于手机和机器人等设备上的代理型任务。
提出了一种轻量级神经架构搜索方法,直接在部署设备上执行,用于近传感器计算。在sEMG手语和故障诊断数据集上进行了验证,提高了准确率并减少了RAM占用。
Liquid AI发布了LFM2.5-230M,一款紧凑的230M参数混合模型,针对设备端部署进行了优化,边缘推理速度快(在Galaxy S25 Ultra上达到213 tok/s),并通过强化学习构建,适用于智能体任务。
一项基准研究,在三个公开数据集上对比了传统机器学习方法(随机森林、XGBoost、SVM、逻辑回归)与轻量级Transformer变体(DistilBERT、TinyBERT、MobileBERT)在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率,而TinyBERT-4L是最便于部署的Transformer模型。
关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。
650多个Apache-2.0许可的生物医学NER和去标识化模型集合,通过MLX在设备端运行,在M3 Max上实现比PyTorch-CPU快30-40倍的推理速度,且输出一致。
本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。
PhoneClaw是一个开源项目,将AI Agent完全运行在iPhone本地,基于Gemma 4和MiniCPM-V等模型,无需联网或上传数据,支持语音、日历、健康数据等手机端操作,保护隐私且响应迅速。
OpenJarvis 是一个开源框架,用于构建可在设备本地运行的个人AI代理,支持本地LLM,并注重能效和隐私保护。