标签
本文介绍了 CATS,这是一种级联自适应树猜测框架,旨在通过优化内存使用同时保持高 Token 接受率,加速内存受限边缘设备上的 LLM 推理。
本文介绍了 QuIDE 框架,该框架利用智能指数来评估量化神经网络在压缩、准确性和延迟之间的权衡。研究证明,最佳位宽因任务而异:对于大型语言模型(LLM)和简单任务,4-bit 是最理想的;而对于复杂的卷积神经网络(CNN),8-bit 则更为合适。
本文介绍了 EdgeFlowerTune,这是一个用于在真实边缘系统约束下评估联邦大语言模型微调的基准测试。研究表明,仅关注准确率的指标可能会在部署可行性方面产生误导。
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。
Nvidia 正在支持 Span 的一项计划,部署住宅微型数据中心,利用闲置的家庭电力运行分布式 AI 工作负载。该方案旨在通过将 GPU 节点部署在住宅附近来规避电网限制,尽管其在实际部署中仍缺乏充分验证。
本文指出,出于隐私和可靠性方面的顾虑,不应依赖云端托管的 AI API,并倡导采用设备端 AI 处理模式,文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。
本教程介绍如何在仅 15 美元的 RISC-V 设备(LicheeRV Nano)上构建一个自主 AI 智能体,该智能体能够管理自己的闪电网络(Lightning Network)钱包,并通过 Nostr 进行自主比特币支付。
本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统,该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型(LLM)接口,在提供结构化解释性发现的同时,保持了在资源受限环境下的离线能力。
麻省理工学院研究人员开发了一种名为 FTTE 的新框架,将隐私保护型联邦学习的速度提升了 81%,使得在智能手表和传感器等资源受限的边缘设备上高效进行 AI 训练成为可能。
研究人员推出 8M–30M 参数的微型语言模型,可在本地设备瞬间生成前几个词,再由云端模型补全,让智能手表等超受限设备也能拥有响应迅速的 AI 体验。
# 论文页面 - EdgeDetect:用于联邦入侵检测的重要性感知梯度压缩与同态聚合 来源:[https://huggingface.co/papers/2604.14663](https://huggingface.co/papers/2604.14663) ## [https://huggingface.co/papers/2604.14663#edgedetect-importance-aware-gradient-compression-with-homomorphic-aggregation-for-federated-intrusion-detection](https://huggingface.co/papers/2604.14663#edgedetect-importance-aware-gradient-compression-fo
Cloudflare与OpenAI合作,使OpenAI的前沿模型(包括GPT-5.4)可直接在Cloudflare Agent Cloud中访问,从而使企业能够大规模部署AI代理以执行实际任务。该集成还包括Codex工具,这些工具现已在Cloudflare Sandboxes中全面可用,并即将在Workers AI中提供。
NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。
Google DeepMind 宣布全面发布 Gemma 3n,这是一款面向移动端的多模态 AI 模型,采用 MatFormer 架构,针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体,它们内存占用低,同时在推理、编程和多语言任务中表现出色。
Supertonic 是一个开源的端内文本转语音(TTS)系统,专为本地推理设计,具有极低的开销。现已发布第 3 版,支持 31 种语言,并提升了准确性。
AT&T 在 MWC 阐述其 AI 战略,聚焦 5G 边缘变现与 AI 驱动的 6G 研发,以开辟新收入并优化网络能耗。
RuView 是一个开源 WiFi 传感平台,利用来自低成本 ESP32 传感器的信道状态信息(CSI)来检测人员、追踪运动、测量生命体征,以及在不使用摄像头或穿戴设备的情况下估计穿透墙壁的姿态。该系统完全在边缘硬件上运行,具有密码学证明机制,并使用脉冲神经网络进行本地自适应。