标签
本文重点介绍了如何在本地笔记本上使用 llama.cpp 和 Unsloth 4-bit 量化免费运行 Qwen3-35B-A3B。
一位开发者通过定制 ROM 和定点运算,成功在原版 Game Boy Color 上本地运行了量化版的 TinyStories Transformer 模型。
本文介绍了 ExecuTorch,这是一个原生的 PyTorch 部署框架,旨在无需模型转换或重新实现,即可在多样化的边缘设备上运行 AI 模型。
本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。
OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。
演示了如何使用 WebGPU 和 Transformers.js 在浏览器中离线运行 Gemma 4,并通过 WebSerial 控制 Reachy Mini 机器人。
本文提出了一种利用2.5维分解的神经符号流水线,通过将垂直坐标计算卸载至确定性执行器,提高了基于大语言模型的空间构建准确性,在基准测试和边缘硬件上均实现了高精度。
OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型,通过 TurboQuant 量化为 3-bit 并利用 MLX 优化,使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。
Google 发布了 Gemma 4,这是一个针对标准笔记本电脑进行本地执行优化的开源 AI 模型,在 Apache 2.0 许可证下免费提供 3 倍性能提升和 256k 上下文窗口。
一篇探讨边缘AI在何处产生最大影响的讨论帖:自主系统与机器人技术、低功耗视觉系统、私有本地LLM,或带宽受限的工业部署。
这篇文章讨论了本地AI模型在日常任务中日益增长的可行性,暗示了向混合架构的转变,这种架构优化成本和延迟,而不是仅仅依赖前沿的云模型。
MiniCPM-o 4.5 是一个拥有 90 亿参数的多模态模型,具备 Omni-Flow 框架,支持实时全双工交互,使模型能够同时感知并主动响应。其开源性能达到最先进水平,可与 Gemini 2.5 Flash 相媲美,并能在内存低于 12GB 的边缘设备上运行。
腾讯 AngelSlim 团队发布了 Hy-MT1.5-1.8B-1.25bit,这是一款高度压缩的 1.25 位机器翻译模型,支持 33 种语言,体积仅 440MB,可在设备端运行。该模型采用 Sherry 量化算法,实现了世界一流的翻译质量,可与体积大得多的模型相媲美。
Anker 发布自研 Thus AI 芯片,采用存内计算架构,让微型设备也能本地运行 AI,首款落地产品为即将推出的 Soundcore 旗舰耳机,带来更出色的通话降噪体验。
NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。
# gizmo64k/soulplayer-c64 来源:[https://github.com/gizmo64k/soulplayer-c64](https://github.com/gizmo64k/soulplayer-c64) # Soul Player C64 **一款在 1 MHz Commodore 64 上运行的真实 Transformer。** ``` .-------. | O O | | V | |..|---|..| # SOUL PLAYER C64 2.5万个参数。 2 层网络。 真实的 Transformer。 从软盘加载运行。 你> 嗨 C64> 你好!这声音不错。真神奇! ``` 一个 2 层仅解码器(Decoder-Only)Transformer —— 与 ChatGPT、Claude 和 Gemini 背后的架构相同 —— 采用手写 6502/
实证研究表明,在去中心化自治组织(DAO)中作为边缘原生治理防火墙时,小型语言模型凭借系统1直觉可获得100%对抗鲁棒性,但引入系统2推理后却完全崩溃。
Cactus-Compute 发布了 Needle,这是一个从 Gemini 3.1 蒸馏而来的 2600 万参数模型,采用纯注意力架构,针对设备端推理和本地微调进行了优化。
这篇博客文章详细介绍了如何在树莓派上使用Hailo AI协处理器设置Frigate进行物体检测,包括修复PCIe描述符页面大小错误的步骤。该设置可与更便宜的Hailo-8L配合使用,并实现低推理时间。
Google 推出 Gemma 3 270M,这是一个拥有 2.7 亿参数的紧凑型模型,专为高效边缘设备 AI 设计,具有强大的指令遵循能力和极致的能效表现(在 Pixel 9 Pro 上进行 25 次对话仅消耗 0.75% 电量)。