@DataChaz: NVIDIA 刚完成了一项疯狂之举:通过移除整个行业认为必不可少的步骤,将边界框检测速度提升至10倍。
摘要
NVIDIA研究人员开发了一种技术,通过消除VLM基础模型用于自动回归逐token预测的步骤,将边界框检测速度提升了10倍。
查看缓存全文
缓存时间: 2026/06/01 09:35
🚨 NVIDIA 刚刚完成了一项疯狂的操作:通过移除整个行业都认为必须的精确步骤,使边界框检测速度快了 10 倍 ↓
每个 VLM grounding 模型都将框视为句子,逐词预测。这本质上很慢。
进入 https://t.co/OE7fxZFF4V
相似文章
@ZhidingYu:感谢 NVIDIA!我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything:6月5日 MDT 下午4:20-4:40(周五…
NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。
@NVIDIAAI: 我们的研究团队在 #CVPR2026 发表的论文在 @HuggingFace 上排名第一。认识一下 LocateAnything:一个视觉语言检测模型……
NVIDIA 研究团队发布了 LocateAnything,一种重新定义边界框预测的视觉语言检测模型,该模型在 HuggingFace 上排名第一。
@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…
NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。