Launch HN: Transload (YC P26) – 通过监控摄像头自动测量货运物品尺寸

Hacker News Top 产品

摘要

Transload利用现有货运站的安防摄像头自动测量零担货物(LTL)的尺寸,帮助承运商在不改变工作流程的前提下改善定价和挂车利用率。

Hi HN — 我们是 Julius、Jago 和 Nils,正在打造 Transload(transload.io)。<p>Transload 帮助零担(LTL)卡车公司利用其仓库中已有的安防摄像头测量货物尺寸。不需要将货物送到专用的测量站,我们可以在它们正常经过卸货作业流程时自动完成测量。<p>我们在这里准备了一个 HN 专属的演示站点:<a href="https:&#x2F;&#x2F;hn.transload.io&#x2F;">https:&#x2F;&#x2F;hn.transload.io&#x2F;</a><p>在零担运输领域,尺寸至关重要,因为它影响定价、货物分类和挂车利用率。如果货物实际尺寸比发货方申报的大,承运商可能在付出相同挂车空间的同时少收费用。明显的解决办法是测量每一件货物,但在繁忙的货运站中这却出奇地困难。专用测量系统可以测量经过它的货物,但会增加叉车行驶距离、造成卸货口拥堵,并改变正常的工作流。实际操作中,许多转运站只对部分货物进行抽样测量。<p>Jago 通过其家族的零担运输和交叉转运业务,对这个行业非常熟悉。我们并非一开始就做货物尺寸测量。我们的第一个想法是开发一个 AI 系统,用于优化交叉转运站内的叉车路线。但在与客户交流并与 50 多家卡车公司沟通后,我们发现人们反复提到的问题并不是叉车路线,而是货物尺寸。<p>与此同时,我们也看到空间 AI 正在快速进步。单目度量深度估计已经变得极其准确,使得仅凭普通摄像头画面就能恢复精确的 3D 结构,而无需昂贵的 LiDAR 传感器。MapAnything(<a href="https:&#x2F;&#x2F;github.com&#x2F;facebookresearch&#x2F;map-anything" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;facebookresearch&#x2F;map-anything</a>)和 MoGe(<a href="https:&#x2F;&#x2F;github.com&#x2F;microsoft&#x2F;moge" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;microsoft&#x2F;moge</a>)就是两个例子。<p>货运站还具备一些有利结构:固定的摄像头、重复的工作流程、条码扫描时间戳以及已知的布局。几乎每个仓库都已经安装了监控系统。这引出了我们一个简单的问题:如果可以利用现有的安防摄像头在后台自动测量货物尺寸,会怎样?这样一来,承运商就能在不改变卸货流程的情况下测量每一件货物。<p>我们的系统主要有两步:将条码扫描结果与视频中的正确物体关联起来,然后估计该物体在现实世界中的尺寸。<p>卸货工人作为正常工作流程的一部分,已经会扫描货物。每次扫描都会给我们一个时间戳和一个处理单元 ID。围绕这个时间戳,我们分析视频,推断哪位工人进行了扫描以及扫描的是哪件货物。我们曾期望通过视觉语言模型(VLM)来处理,但它们过于不可靠。于是我们训练了自己的模型,利用目光、身体朝向和运动等线索在 3D 空间中进行推理。<p>这个关联步骤至关重要。一帧画面里可能包含数十个托盘、几名工人、叉车以及部分遮挡的货物。如果扫描结果关联到了错误的物体,测量就毫无意义。<p>一旦我们确定了目标货物,就将其分割出来,并从单目摄像头视角估计出一个度量的 3D 边界框。框拟合完成后,尺寸就一目了然:长、宽、高和体积可以直接得出。<p>难点在于仅凭一个普通安防摄像头精确拟合出这个边界框。一张 2D 图像并不能直接告诉你物体的形状或尺度,而且许多不同的 3D 盒子都可以解释类似的图像证据。我们利用物体掩膜、可见边缘、地面接触点、摄像头几何以及转运站的约束条件,来找到与场景最匹配的 3D 盒子。<p>我们目前正与几家零担承运商合作。对一家客户而言,约 10% 的已检货物存在尺寸误差。首要应用场景是营收恢复:识别尺寸偏小的货物,附着视觉证据,帮助承运商修正计费或分类。长远来看,同样的数据还能帮助承运商更好地了解挂车利用率。<p>零担货运是一个不太常见的计算机视觉应用场景,我们每周都能学到新东西。如果您在单目重建、3D 物体检测、仓库感知或混乱的真实世界计算机视觉方面有经验,我们非常希望听听您的见解。关于货运、零担转运站或技术方法的问题也非常欢迎。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:22

# Launch HN: Transload (YC P26) – 利用CCTV测量货运物品尺寸 来源:https://news.ycombinator.com/item?id=48463273 大家好,我们是 Julius、Jago 和 Nils,正在构建 transload(transload.io)。 transload 帮助零担(LTL)货运公司利用其园区已安装的安防摄像头自动测量货物尺寸。无需将货物送至专门的测量站,我们会在货物正常通过装卸码头流程时自动完成测量。 我们为此搭建了一个面向 HN 用户的演示站点:https://hn.transload.io/ 在零担货运领域,尺寸至关重要,因为它影响定价、货物分级和挂车装载率。如果货物实际尺寸大于托运人申报尺寸,承运商可能收费不足,却占用同样的挂车空间。显而易见的解决方法是测量每一票货物,但在繁忙的货运码头,这异常困难。专用测量系统能处理经过其中的货物,但会增加叉车行驶距离、造成码头拥堵,并改变正常作业流程。实际上,许多码头仅测量部分货物样本。 Jago 通过其家族的零担货运和越库配送业务,从小就对这一行业耳濡目染。我们最初并非要构建货物尺寸测量系统——第一个想法是用于优化越库码头内叉车路线的人工智能系统。但通过与客户共处、与超过 50 家货运公司交流后,我们意识到叉车路线并非人们反复提及的痛点,货物尺寸才是。 同时,我们注意到空间人工智能发展迅速。单目度量深度估计已大幅改进,使得从普通摄像头画面中恢复精确的 3D 结构成为可能,而无需昂贵的激光雷达传感器。MapAnything(https://github.com/facebookresearch/map-anything)和 MoGe(https://github.com/microsoft/moge)就是两个例子。 货运码头还有一个有利结构:固定摄像头、重复的作业流程、条码扫描时间戳以及已知的布局。几乎每个仓库都已安装 CCTV。这引出一个简单的问题:如果我们可以利用现有安防摄像头自动测量货物,全程在后台运行,那会怎样?这将使承运商无需改变码头作业流程就能测量每一票货物。 我们的系统包含两个主要步骤:将条码扫描结果与视频中的正确物体关联,然后估计该物体在真实世界单位下的尺寸。 码头工人在正常作业中已经会扫描货物。每次扫描提供时间戳和操作单元 ID。我们根据该时间戳分析视频,推断哪位工人进行了扫描,以及扫描的是哪件货物。我们原本期望视觉语言模型(VLM)能完成这一任务,但它们极不可靠。于是我们训练了自己的模型,利用视线、身体朝向和移动等线索进行 3D 推理。 关联步骤至关重要。一帧画面中可能包含几十个托盘、数名工人、叉车以及部分遮挡的货物。如果扫描关联到错误物体,测量结果便毫无意义。 一旦确定目标货物,我们对其进行分割,并从单目摄像头视角中估计出一个公制 3D 包围盒。包围盒拟合后,尺寸便直接得出:长度、宽度、高度和体积。 难点在于仅凭一个普通安防摄像头精确拟合该包围盒。单张 2D 图像无法直接告知物体形状或尺度,许多不同的 3D 盒子可能解释相似的图像特征。我们利用物体掩码、可见边缘、地面接触、摄像头几何以及码头约束条件,找到最匹配场景的 3D 盒子。 我们目前正与多家零担承运商合作。对于某家客户,约 10% 的被检查货物存在尺寸误差。首要用例是收入回收:识别尺寸不足的货物,附上可视化证据,帮助承运商修正计费或分类。长期而言,同一数据可帮助承运商更好地理解挂车装载率。 在零担货运领域做 3D 计算机视觉有些奇特,我们每周都会学到新东西。如果你从事过单目重建、3D 目标检测、仓库感知或复杂的真实世界计算机视觉工作,我们很希望听听你的看法。关于货运、零担码头或技术方法的任何问题也欢迎提出。

相似文章

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。

LiteFrame 扩展视频大语言模型效率(6分钟阅读)

TLDR AI

LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。