我用我的 M1 Max 电脑和本地机器学习模型索引了 669 GB 的 GoPro 视频

Hacker News Top 工具

摘要

一位开发者描述了如何使用 M1 Max Mac 和本地机器学习模型索引 669 GB 的 GoPro 视频素材,在 67 小时内处理了 57,537 帧画面。

TLDR:我有 2,207 段 GoPro 视频,需要重新观看以找出骑行旅程中的精彩瞬间。我构建了一个项目,使用开源机器学习模型在本地 M1 Max 上对这些视频进行索引,搜索这些瞬间,并将最佳片段直接发送到我的 DaVinci Resolve 时间线。我索引了 628 个视频(总计 668.68 GB,时长 15 小时 13 分钟 18 秒),更多详情见本文最后一节的指标表格。<p>完整文章:https://iliashaddad.com/blog/i-indexed-669-gb-of-my-gopro-videos-using-my-m1-max-computer
查看原文
查看缓存全文

缓存时间: 2026/06/15 00:58

# 我用 M1 Max 电脑和本地 ML 模型索引了 669 GB 的 GoPro 视频 来源:https://news.ycombinator.com/item?id=48528029 https://news.ycombinator.com/vote?id=48533542&how=up&goto=item%3Fid%3D48528029 很棒,你的文章上首页时我就看过了,因为有人在评论里提到了我的项目。 文章和项目都做得很好。没错,本地模型确实越来越强了。 https://news.ycombinator.com/vote?id=48533341&how=up&goto=item%3Fid%3D48528029 > 然后,运行帧分析管道,将视频分成不同的视频场景(每段 1 秒,或 1fps) > ... > 分析的帧数:57,537 啊,这就完全合理了。这个数字比“669 GB”要合理得多,因为实际处理的帧总大小大概在 10-30 GB 左右。 (不是要贬低什么。在家做项目总是需要算一下实际可行性。) > 总计算时间 67 小时 40 分 42 秒 不过我只是好奇——有没有什么付费方案可以加速这个过程?直接启动 GPU 实例? https://news.ycombinator.com/vote?id=48533579&how=up&goto=item%3Fid%3D48528029 > 啊,这就完全合理了。这个数字比“669 GB”要合理得多,因为实际处理的帧总大小大概在 10-30 GB 左右。 之所以说是“669 GB”,是因为那是我做视频处理时的原始素材总大小。我把每一帧都缩小到 720p,这样处理速度快很多,而且根据我的了解和实践,不需要原始全画质也能获得准确的结果。 > 我只是好奇——有没有什么付费方案可以加速这个过程?直接启动 GPU 实例? 目前我发现 NVIDIA GPU(例如 RTX 3060 12GB VRAM)比我的 M1 Max 快得多。(还在优化速度和准确性。) https://news.ycombinator.com/vote?id=48532856&how=up&goto=item%3Fid%3D48528029 出乎我意料的是,Google Photos 和 Apple Photos 给我推送了过去十年来我和孩子生活中的各种照片回忆和合辑,我比想象中更喜欢。 我真的很看好多给孩子拍视频,想着以后 AI 会越来越容易把它们编成小合辑,让我以后可以欣赏。 https://news.ycombinator.com/vote?id=48534722&how=up&goto=item%3Fid%3D48528029 你不在意 Google 用你孩子的数据来训练他们的模型和广告算法? 多年以后,他们可能会收到“嘿,看看 [自行车品牌] 最新款便宜自行车,记得你以前骑 [该品牌] 自行车的时候吗?” https://news.ycombinator.com/vote?id=48533847&how=up&goto=item%3Fid%3D48528029 你同时用 Android 和 iOS 吗?还是说把个人媒体同时放在两个平台有其他好处? https://news.ycombinator.com/vote?id=48530869&how=up&goto=item%3Fid%3D48528029 DaVinci Resolve 21 内置了索引功能(AI IntelliSearch)。不是要贬低你的工作,但这现在已经有很多用户可以使用了(可能只有 Studio 用户,因为名字里带 AI)。 https://news.ycombinator.com/vote?id=48530903&how=up&goto=item%3Fid%3D48528029 是的,我没看这个。但它是把你的视频上传到云端处理,还是本地处理?另外,它允许提供自定义面部数据来帮助标记视频中的人脸吗? 我记得 Adobe Premiere Pro 也有类似功能,但是云端处理的。 https://news.ycombinator.com/vote?id=48531113&how=up&goto=item%3Fid%3D48528029 DaVinci Resolve 的 AI 功能都是本地处理的。目前还没有人脸标签功能。 https://news.ycombinator.com/vote?id=48528875&how=up&goto=item%3Fid%3D48528029 你需要一个 LoRA 来实现这个,色情内容拒绝很严格。或者你需要一个被“消除”的模型,不确定视觉模型是否也适用。 你可能还想添加类似 YOLO 微调来检测场景,再加上人脸识别。 https://news.ycombinator.com/vote?id=48532417&how=up&goto=item%3Fid%3D48528029 对于这位网友的用途,人脸识别技术可以重新用于……嗯,其他身体部位的识别吗?有时候演员背对镜头。如果有些嘴唇露出来,也许会有帮助。 https://news.ycombinator.com/vote?id=48530840&how=up&goto=item%3Fid%3D48528029 为什么总是同样的问题?哈哈哈。我在 Reddit 上发布我的项目时也遇到了同样的问题哈哈哈。 https://news.ycombinator.com/vote?id=48529408&how=up&goto=item%3Fid%3D48528029 上次我尝试 Whisper 时,它从拍打和呻吟声中幻觉出一段复杂的对话,花了很长时间才逐句输出。 https://news.ycombinator.com/vote?id=48530475&how=up&goto=item%3Fid%3D48528029 Parakeet 模型经过训练可以检测非语音声音并将其排除在识别之外,所以用那个系列可能会更好。 https://news.ycombinator.com/vote?id=48532444&how=up&goto=item%3Fid%3D48528029 如果我没记错的话,Whisper 文档实际上建议剪掉非语音部分,因为模型在这些部分容易严重幻觉。 https://news.ycombinator.com/vote?id=48529120&how=up&goto=item%3Fid%3D48528029 不确定你是不是在讽刺,但我认为这个问题很有趣。DeepSeek 在这里会有用吗?因为它是本地的。 https://news.ycombinator.com/vote?id=48532435&how=up&goto=item%3Fid%3D48528029 只是因为是本地的,并不意味着它不会拒绝露骨内容。你当然可以尝试寻找被“消除”的模型,并尝试使用 unsloth 或类似工具进行正确微调。 https://news.ycombinator.com/vote?id=48530676&how=up&goto=item%3Fid%3D48528029 这也多少有点像“苹果”比“橘子”,有几个原因,但最关键的是: - “统一”内存使所有系统内存都可作为 VRAM 使用 - 专用的 AI 协加速器 这两个原因使 Apple Silicon 芯片在这类 AI 模型工作负载上碾压传统 CPU。 不知道 Windows ARM 设备的能力如何。我知道它们用的是 Qualcomm Snapdragon 芯片。 https://news.ycombinator.com/vote?id=48530848&how=up&goto=item%3Fid%3D48528029 “相当”可能是指单核性能,但就内存带宽而言,M1 Max 快大约 8 倍。更宽的总线,更低的延迟,根本不是一个级别。 https://news.ycombinator.com/vote?id=48530877&how=up&goto=item%3Fid%3D48528029 关于你的问题,我无法否认或确认,因为我还没有在 Windows 机器或这种配置的机器上尝试过这个项目。 https://news.ycombinator.com/vote?id=48534163&how=up&goto=item%3Fid%3D48528029 很酷的构建,但你最后提供的示例视频……并不是我期望的从 2000 多个骑行视频中提取的精彩片段?比如狗叫的视频,只有同一个场景重复了两三次,而且只有五秒长? https://news.ycombinator.com/vote?id=48534213&how=up&goto=item%3Fid%3D48528029 有道理,你想看什么样的示例视频?我可以做出来。 对于狗叫的视频,那只是视频中我检测到狗叫声的画面。 我会继续添加更多提示和示例视频,请保持关注。 https://news.ycombinator.com/vote?id=48534427&how=up&goto=item%3Fid%3D48528029 我对特定内容没有预设立场。我只是觉得这么多小时的精彩冒险应该更多样化。这让我怀疑你的 AI 是否真的很好地完成了索引。也让我觉得技术可能还没准备好? 你以前去过 crazyguyonabike.com 吗?很久以前我有幸关注过一个朋友的朋友的朋友在那里的旅程: https://www.crazyguyonabike.com/doc/?doc_id=2405 大概是那样的内容? https://news.ycombinator.com/vote?id=48531957&how=up&goto=item%3Fid%3D48528029 如果有人对本地离线搜索大型视频集感兴趣,我建议看看 Jumper: https://docs.getjumper.io/ 它附带了一些很酷的功能,比如 NLE 集成、人物搜索、MCP、API 等。 免责声明:我是联合创始人之一。 https://news.ycombinator.com/vote?id=48532629&how=up&goto=item%3Fid%3D48528029 链接对我来说超时了。我在以色列,通过住宅 WiFi 连接。其他常用网站都正常访问。 https://news.ycombinator.com/vote?id=48530976&how=up&goto=item%3Fid%3D48528029 我一直在寻找一个解决方案来解决在 MPS 上运行 Docker 容器并利用其 GPU 性能的问题。我认为这个项目将是解决方案,我会尽快尝试并添加支持。非常感谢。 https://news.ycombinator.com/vote?id=48531277&how=up&goto=item%3Fid%3D48528029 我希望看到实际视频片段的嵌入在这类工作流中变得实用。 帧级别嵌入涵盖了很多内容,但可能会错过很多与动作相关的搜索。 https://news.ycombinator.com/vote?id=48529262&how=up&goto=item%3Fid%3D48528029 标题应该链接到“全文”。我怀疑 OP 的域名被屏蔽了,所以他们这样做来绕过限制。 https://news.ycombinator.com/vote?id=48530038&how=up&goto=item%3Fid%3D48528029 非常欢迎您的反馈和建议,无论是源代码可用版本、桌面应用还是博客文章本身,您希望看到哪些改进或新功能? https://news.ycombinator.com/vote?id=48534739&how=up&goto=item%3Fid%3D48528029 > 我拍摄的很多视频捕捉到了精彩瞬间,有时很难看完整个视频来找到这些瞬间。 没错,我也有同样的问题。 > 然后,运行帧分析管道 [...] 我有一个使用自定义面部数据的人脸识别插件、物体检测、屏幕文字、镜头类型和场景描述 [...] 我们将有三个向量数据库集合,包含所有关于视频的信息,比如视频元数据位置、摄像机名称、识别出的人脸、检测到的物体、屏幕文字、转录文本、每个场景的描述等等 [...] 如果使用高级模式索引,使用 Qwen2.5-VL-7B-Instruct 模型来更好地理解和描述你的视频,但索引速度会慢一些。 嗯……好吧 :) 如果其他人也有类似的问题,真正的解决方案如下: 1. 录制时,如果你看到了值得保存的有趣时刻,按下电源键——这会在视频中标记当前时刻为一个章节。 2. 稍后在编辑时找到这些章节,把它们剪成片段。 3. 完成 :) 这比上述疯狂的方法有两个主要好处: 1. 非常简单明了,而不是极其复杂且低效。 2. 会可靠地捕捉到你认为有趣的所有内容,因为是你自己在标记。 缺点: 1. 无法追溯。 2. 如果你当时也错过了,可能也会错过有趣的内容。 3. 仅适用于这个用例。 4. 书呆子不会因为你使用了前沿技术而流口水。 https://news.ycombinator.com/vote?id=48531069&how=up&goto=item%3Fid%3D48528029 并非如此。抓取帧、降低分辨率、分类、合并元数据、转录音频、将这些数据(文本、视觉和音频)转化为嵌入,保存到向量数据库和 SQL 数据库中。这有助于我进行语义搜索、RAG、用视频截图搜索找到视频中的精确时刻,还可以用音频文件搜索。此外,向量数据库还解锁了其他功能。 https://news.ycombinator.com/vote?id=48532213&how=up&goto=item%3Fid%3D48528029 非常酷的作品和工作流。我强烈偏好这种本地的、开源的管道,由我控制,而不是依赖 Adobe 工具和锁定。 https://news.ycombinator.com/vote?id=48533725&how=up&goto=item%3Fid%3D48528029 我同意,感谢你的反馈。另外,也许你不是视频编辑,只是想搜索视频。视频编辑集成是可选的,你可以完全控制。你可以在 Adobe Premiere Pro、Final Cut Pro 或 DaVinci Resolve 之间切换。 https://news.ycombinator.com/vote?id=48533706&how=up&goto=item%3Fid%3D48528029 谢谢,我想知道你对这类项目的使用场景是什么,以及你想要生成什么样的提示?

相似文章

2台配备 512GB 内存的 M3 Ultra Mac Studio

Reddit r/LocalLLaMA

硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。