efficient-ai

#efficient-ai

@Phoenixyin13: 现在的人工智能领域陷入了一个非此即彼的怪圈。一边是统治世界的 Transformer 架构，它记性极好，但由于计算量呈平方级爆炸，长文本读得越多就越贵，活脱脱一个吞金兽。另一边是老牌的 RNN 架构，计算速度极快，成本很低，但它是个彻…

X AI KOLs Timeline ↗ · 2026-06-07 缓存

本文介绍了Google Research联合康奈尔和南加大提出的一种新方法，通过为RNN的记忆拍快照并缓存，使RNN能高效处理长文本，兼具Transformer的强记忆和RNN的低成本，为长上下文AI提供新方向。

0 人收藏 0 人点赞

#efficient-ai

@vintcessun: 预训练原来可以这么省？1B模型、~$1000就能从零训出可用的基础模型，计算和数据量直接砍掉数百倍。核心不靠堆算力，而是层次递归架构加上潜在空间推理，配合PrefixLM packing和FA3把效率拉满。有点离谱，但论文和代码都开源了。

X AI KOLs Timeline ↗ · 2026-06-05 缓存

HRM-Text发布了一个1B参数的基础模型，声称仅需约$1000即可从零完成预训练，计算量和数据量减少数百倍，采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术，论文与代码均已开源。

0 人收藏 0 人点赞

#efficient-ai

1-Bit Bonsai Image 4B 本地设备图像生成

Hacker News Top ↗ · 2026-05-31 缓存

PrismML 发布 Bonsai Image 4B，这是一系列紧凑型图像生成模型，使用 1-bit 和三进制权重，能够在笔记本电脑和 iPhone 等本地设备上实现高质量扩散推理，同时显著减少内存占用。

0 人收藏 0 人点赞

#efficient-ai

@ickma2311: 高效AI讲座15：长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是：哪些过…

X AI KOLs Timeline ↗ · 2026-05-25 缓存

本文总结了关于长上下文LLM的高效AI讲座15，涵盖用于上下文扩展的RoPE位置插值、大海捞针评估，以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。

0 人收藏 0 人点赞

#efficient-ai

在卫星图像数据集上测试冷战时期的人工智能模型

Reddit r/artificial ↗ · 2026-05-24

一位开发者使用蒙特卡洛模拟在卫星图像数据集上测试了一个冷战时期的人工智能模型，发现它效率高，适合在FPGA上部署。

0 人收藏 0 人点赞

#efficient-ai

Stratum：采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE

Hacker News Top ↗ · 2026-05-15

介绍了Stratum，一种采用3D堆叠DRAM的系统硬件协同设计方法，以高效加速混合专家（MoE）模型。

0 人收藏 0 人点赞

#efficient-ai

@antoine_chaffin: Reason-ModernColBERT 几乎完美解决了 BrowseComp-Plus，碾压 SOTA，并超越了 54 倍大的模型。还不错吧…

X AI KOLs Following ↗ · 2026-05-12 缓存

Reason-ModernColBERT 在 BrowseComp-Plus 上取得了近乎完美的结果，超越了 SOTA 和 54 倍大的模型，随后 Agent-ModernColBERT 通过极少的训练进一步提升了性能。

0 人收藏 0 人点赞

#efficient-ai

MiniCPM-V 4.6

Product Hunt ↗ · 2026-05-12

MiniCPM-V 4.6 是一款专为移动设备优化的极致高效 13 亿参数视觉语言模型。

0 人收藏 0 人点赞

#efficient-ai

@ickma2311: 高效AI 第12讲：Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理，还深入讲解其底层构建模块……

X AI KOLs Timeline ↗ · 2026-05-09 缓存

一门高效AI课程的第12讲笔记，涵盖 Transformer 与 LLM 基础知识，包括多头注意力机制、位置编码、KV 缓存，以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞

#efficient-ai

单张4090上11.67% ARC-AGI-2本地评估：TOPAS递归架构

Reddit r/LocalLLaMA ↗ · 2026-05-07

作者介绍了TOPAS，一种递归AI架构，在单张RTX 4090上达到了ARC-AGI-2的11.67%，旨在证明架构效率可以超越原始计算能力。

0 人收藏 0 人点赞

#efficient-ai

Ternary Bonsai：1.58 比特下的顶级智能

Hacker News Top ↗ · 2026-04-18

一种使用三值权重（-1、0、1）的高效 AI 模型架构，仅需 1.58 比特/参数即可实现具有竞争力的性能，可部署在极度受限的设备上。

0 人收藏 0 人点赞

#efficient-ai

MiniCPM-V 4.5：通过架构、数据与训练配方打造高效多模态大语言模型

Papers with Code Trending ↗ · 2025-09-16 缓存

MiniCPM-V 4.5 是一款 8B 参数规模的多模态大语言模型，凭借统一的 3D-Resampler 架构、创新的数据策略以及混合强化学习方法，实现了高效率与卓越性能。据悉，该模型在显著降低 GPU 显存占用与推理耗时的同时，综合表现已超越更大规模的闭源及开源标杆模型。

0 人收藏 0 人点赞

efficient-ai

提交意见反馈