Ternary Bonsai：1.58 比特下的顶级智能

Hacker News Top 2026/04/18 02:51 模型

quantization ternary-weights efficient-ai low-bit neural-network edge-deployment

摘要

一种使用三值权重（-1、0、1）的高效 AI 模型架构，仅需 1.58 比特/参数即可实现具有竞争力的性能，可部署在极度受限的设备上。

暂无内容

查看原文

相似文章

Google DeepMind Blog

Google 推出 Gemma 3 270M，这是一个拥有 2.7 亿参数的紧凑型模型，专为高效边缘设备 AI 设计，具有强大的指令遵循能力和极致的能效表现（在 Pixel 9 Pro 上进行 25 次对话仅消耗 0.75% 电量）。

Reddit r/LocalLLaMA

作者介绍了TOPAS，一种递归AI架构，在单张RTX 4090上达到了ARC-AGI-2的11.67%，旨在证明架构效率可以超越原始计算能力。

arXiv cs.LG

本文介绍了 QuIDE 框架，该框架利用智能指数来评估量化神经网络在压缩、准确性和延迟之间的权衡。研究证明，最佳位宽因任务而异：对于大型语言模型（LLM）和简单任务，4-bit 是最理想的；而对于复杂的卷积神经网络（CNN），8-bit 则更为合适。

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3 Nano Omni，一款 300 亿参数的多模态模型，能够处理视频、音频、图像和文本，并集成推理能力，适用于企业工作流。