edge-computing

#edge-computing

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG ↗ · 14小时前缓存

本文介绍了 CATS，这是一种级联自适应树猜测框架，旨在通过优化内存使用同时保持高 Token 接受率，加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞

#edge-computing

QuIDE：通过主动优化掌握量化智能权衡

arXiv cs.LG ↗ · 14小时前缓存

本文介绍了 QuIDE 框架，该框架利用智能指数来评估量化神经网络在压缩、准确性和延迟之间的权衡。研究证明，最佳位宽因任务而异：对于大型语言模型（LLM）和简单任务，4-bit 是最理想的；而对于复杂的卷积神经网络（CNN），8-bit 则更为合适。

0 人收藏 0 人点赞

#edge-computing

EdgeFlowerTune：在真实边缘系统约束下评估联邦大语言模型微调

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 EdgeFlowerTune，这是一个用于在真实边缘系统约束下评估联邦大语言模型微调的基准测试。研究表明，仅关注准确率的指标可能会在部署可行性方面产生误导。

0 人收藏 0 人点赞

#edge-computing

MiniCPM-V 4.6

Product Hunt ↗ · 昨天

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。

0 人收藏 0 人点赞

#edge-computing

本地模型优化（3 分钟阅读）

TLDR AI ↗ · 昨天缓存

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性，对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是，对于常规任务，本地模型速度快 2 倍，尽管在能力上略有差距，但仍是日常工作量中一半任务的实用选择。

0 人收藏 0 人点赞

#edge-computing

@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型，由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…

X AI KOLs Following ↗ · 2天前缓存

OpenBMB 发布了 MiniCPM V4.6，这是一个专为移动设备优化的 1B 参数多模态大语言模型，采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能，声称在 iOS、Android 和 HarmonyOS 上原生运行时，吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。

0 人收藏 0 人点赞

#edge-computing

你可以在家里建个数据中心——但真正买单的是谁？

Reddit r/ArtificialInteligence ↗ · 2天前

Nvidia 正在支持 Span 的一项计划，部署住宅微型数据中心，利用闲置的家庭电力运行分布式 AI 工作负载。该方案旨在通过将 GPU 节点部署在住宅附近来规避电网限制，尽管其在实际部署中仍缺乏充分验证。

0 人收藏 0 人点赞

#edge-computing

本地 AI 应成为常态

Hacker News Top ↗ · 3天前缓存

本文指出，出于隐私和可靠性方面的顾虑，不应依赖云端托管的 AI API，并倡导采用设备端 AI 处理模式，文中以一款利用 Apple 本地模型 API 的原生 iOS 应用为例进行了说明。

0 人收藏 0 人点赞

#edge-computing

一台 15 美元的 RISC-V 设备如何构建自己的闪电网络钱包——并学会向互联网支付

Reddit r/ArtificialInteligence ↗ · 4天前缓存

本教程介绍如何在仅 15 美元的 RISC-V 设备（LicheeRV Nano）上构建一个自主 AI 智能体，该智能体能够管理自己的闪电网络（Lightning Network）钱包，并通过 Nostr 进行自主比特币支付。

0 人收藏 0 人点赞

#edge-computing

基于优化深度学习与 LLM 驱动智能 AI 在计算受限系统上进行膝关节骨关节炎严重程度分级

arXiv cs.AI ↗ · 5天前缓存

本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统，该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型（LLM）接口，在提供结构化解释性发现的同时，保持了在资源受限环境下的离线能力。

0 人收藏 0 人点赞

#edge-computing

在日用设备上启用隐私保护型 AI 训练

MIT News — Artificial Intelligence ↗ · 2026-04-29 缓存

麻省理工学院研究人员开发了一种名为 FTTE 的新框架，将隐私保护型联邦学习的速度提升了 81%，使得在智能手表和传感器等资源受限的边缘设备上高效进行 AI 训练成为可能。

0 人收藏 0 人点赞

#edge-computing

微语言模型实现即时响应

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

研究人员推出 8M–30M 参数的微型语言模型，可在本地设备瞬间生成前几个词，再由云端模型补全，让智能手表等超受限设备也能拥有响应迅速的 AI 体验。

0 人收藏 0 人点赞

#edge-computing

EdgeDetect：用于联邦入侵检测的重要性感知梯度压缩与同态聚合

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

# 论文页面 - EdgeDetect：用于联邦入侵检测的重要性感知梯度压缩与同态聚合来源：[https://huggingface.co/papers/2604.14663](https://huggingface.co/papers/2604.14663) ## [https://huggingface.co/papers/2604.14663#edgedetect-importance-aware-gradient-compression-with-homomorphic-aggregation-for-federated-intrusion-detection](https://huggingface.co/papers/2604.14663#edgedetect-importance-aware-gradient-compression-fo

0 人收藏 0 人点赞

#edge-computing

企业利用OpenAI在Cloudflare Agent Cloud中驱动智能代理工作流

OpenAI Blog ↗ · 2026-04-13 缓存

Cloudflare与OpenAI合作，使OpenAI的前沿模型（包括GPT-5.4）可直接在Cloudflare Agent Cloud中访问，从而使企业能够大规模部署AI代理以执行实际任务。该集成还包括Codex工具，这些工具现已在Cloudflare Sandboxes中全面可用，并即将在Workers AI中提供。

0 人收藏 0 人点赞

#edge-computing