我用我的 M1 Max 电脑和本地机器学习模型索引了 669 GB 的 GoPro 视频

Hacker News Top 2026/06/14 15:13 工具

personal-project gopro video-indexing local-ai m1-max machine-learning

摘要

一位开发者描述了如何使用 M1 Max Mac 和本地机器学习模型索引 669 GB 的 GoPro 视频素材，在 67 小时内处理了 57,537 帧画面。

TLDR：我有 2,207 段 GoPro 视频，需要重新观看以找出骑行旅程中的精彩瞬间。我构建了一个项目，使用开源机器学习模型在本地 M1 Max 上对这些视频进行索引，搜索这些瞬间，并将最佳片段直接发送到我的 DaVinci Resolve 时间线。我索引了 628 个视频（总计 668.68 GB，时长 15 小时 13 分钟 18 秒），更多详情见本文最后一节的指标表格。<p>完整文章：https://iliashaddad.com/blog/i-indexed-669-gb-of-my-gopro-videos-using-my-m1-max-computer

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:58

# 我用 M1 Max 电脑和本地 ML 模型索引了 669 GB 的 GoPro 视频来源：https://news.ycombinator.com/item?id=48528029 https://news.ycombinator.com/vote?id=48533542&how=up&goto=item%3Fid%3D48528029 很棒，你的文章上首页时我就看过了，因为有人在评论里提到了我的项目。文章和项目都做得很好。没错，本地模型确实越来越强了。 https://news.ycombinator.com/vote?id=48533341&how=up&goto=item%3Fid%3D48528029 > 然后，运行帧分析管道，将视频分成不同的视频场景（每段 1 秒，或 1fps） > ... > 分析的帧数：57,537 啊，这就完全合理了。这个数字比“669 GB”要合理得多，因为实际处理的帧总大小大概在 10-30 GB 左右。（不是要贬低什么。在家做项目总是需要算一下实际可行性。） > 总计算时间 67 小时 40 分 42 秒不过我只是好奇——有没有什么付费方案可以加速这个过程？直接启动 GPU 实例？ https://news.ycombinator.com/vote?id=48533579&how=up&goto=item%3Fid%3D48528029 > 啊，这就完全合理了。这个数字比“669 GB”要合理得多，因为实际处理的帧总大小大概在 10-30 GB 左右。之所以说是“669 GB”，是因为那是我做视频处理时的原始素材总大小。我把每一帧都缩小到 720p，这样处理速度快很多，而且根据我的了解和实践，不需要原始全画质也能获得准确的结果。 > 我只是好奇——有没有什么付费方案可以加速这个过程？直接启动 GPU 实例？目前我发现 NVIDIA GPU（例如 RTX 3060 12GB VRAM）比我的 M1 Max 快得多。（还在优化速度和准确性。） https://news.ycombinator.com/vote?id=48532856&how=up&goto=item%3Fid%3D48528029 出乎我意料的是，Google Photos 和 Apple Photos 给我推送了过去十年来我和孩子生活中的各种照片回忆和合辑，我比想象中更喜欢。我真的很看好多给孩子拍视频，想着以后 AI 会越来越容易把它们编成小合辑，让我以后可以欣赏。 https://news.ycombinator.com/vote?id=48534722&how=up&goto=item%3Fid%3D48528029 你不在意 Google 用你孩子的数据来训练他们的模型和广告算法？多年以后，他们可能会收到“嘿，看看 [自行车品牌] 最新款便宜自行车，记得你以前骑 [该品牌] 自行车的时候吗？” https://news.ycombinator.com/vote?id=48533847&how=up&goto=item%3Fid%3D48528029 你同时用 Android 和 iOS 吗？还是说把个人媒体同时放在两个平台有其他好处？ https://news.ycombinator.com/vote?id=48530869&how=up&goto=item%3Fid%3D48528029 DaVinci Resolve 21 内置了索引功能（AI IntelliSearch）。不是要贬低你的工作，但这现在已经有很多用户可以使用了（可能只有 Studio 用户，因为名字里带 AI）。 https://news.ycombinator.com/vote?id=48530903&how=up&goto=item%3Fid%3D48528029 是的，我没看这个。但它是把你的视频上传到云端处理，还是本地处理？另外，它允许提供自定义面部数据来帮助标记视频中的人脸吗？我记得 Adobe Premiere Pro 也有类似功能，但是云端处理的。 https://news.ycombinator.com/vote?id=48531113&how=up&goto=item%3Fid%3D48528029 DaVinci Resolve 的 AI 功能都是本地处理的。目前还没有人脸标签功能。 https://news.ycombinator.com/vote?id=48528875&how=up&goto=item%3Fid%3D48528029 你需要一个 LoRA 来实现这个，色情内容拒绝很严格。或者你需要一个被“消除”的模型，不确定视觉模型是否也适用。你可能还想添加类似 YOLO 微调来检测场景，再加上人脸识别。 https://news.ycombinator.com/vote?id=48532417&how=up&goto=item%3Fid%3D48528029 对于这位网友的用途，人脸识别技术可以重新用于……嗯，其他身体部位的识别吗？有时候演员背对镜头。如果有些嘴唇露出来，也许会有帮助。 https://news.ycombinator.com/vote?id=48530840&how=up&goto=item%3Fid%3D48528029 为什么总是同样的问题？哈哈哈。我在 Reddit 上发布我的项目时也遇到了同样的问题哈哈哈。 https://news.ycombinator.com/vote?id=48529408&how=up&goto=item%3Fid%3D48528029 上次我尝试 Whisper 时，它从拍打和呻吟声中幻觉出一段复杂的对话，花了很长时间才逐句输出。 https://news.ycombinator.com/vote?id=48530475&how=up&goto=item%3Fid%3D48528029 Parakeet 模型经过训练可以检测非语音声音并将其排除在识别之外，所以用那个系列可能会更好。 https://news.ycombinator.com/vote?id=48532444&how=up&goto=item%3Fid%3D48528029 如果我没记错的话，Whisper 文档实际上建议剪掉非语音部分，因为模型在这些部分容易严重幻觉。 https://news.ycombinator.com/vote?id=48529120&how=up&goto=item%3Fid%3D48528029 不确定你是不是在讽刺，但我认为这个问题很有趣。DeepSeek 在这里会有用吗？因为它是本地的。 https://news.ycombinator.com/vote?id=48532435&how=up&goto=item%3Fid%3D48528029 只是因为是本地的，并不意味着它不会拒绝露骨内容。你当然可以尝试寻找被“消除”的模型，并尝试使用 unsloth 或类似工具进行正确微调。 https://news.ycombinator.com/vote?id=48530676&how=up&goto=item%3Fid%3D48528029 这也多少有点像“苹果”比“橘子”，有几个原因，但最关键的是： - “统一”内存使所有系统内存都可作为 VRAM 使用 - 专用的 AI 协加速器这两个原因使 Apple Silicon 芯片在这类 AI 模型工作负载上碾压传统 CPU。不知道 Windows ARM 设备的能力如何。我知道它们用的是 Qualcomm Snapdragon 芯片。 https://news.ycombinator.com/vote?id=48530848&how=up&goto=item%3Fid%3D48528029 “相当”可能是指单核性能，但就内存带宽而言，M1 Max 快大约 8 倍。更宽的总线，更低的延迟，根本不是一个级别。 https://news.ycombinator.com/vote?id=48530877&how=up&goto=item%3Fid%3D48528029 关于你的问题，我无法否认或确认，因为我还没有在 Windows 机器或这种配置的机器上尝试过这个项目。 https://news.ycombinator.com/vote?id=48534163&how=up&goto=item%3Fid%3D48528029 很酷的构建，但你最后提供的示例视频……并不是我期望的从 2000 多个骑行视频中提取的精彩片段？比如狗叫的视频，只有同一个场景重复了两三次，而且只有五秒长？ https://news.ycombinator.com/vote?id=48534213&how=up&goto=item%3Fid%3D48528029 有道理，你想看什么样的示例视频？我可以做出来。对于狗叫的视频，那只是视频中我检测到狗叫声的画面。我会继续添加更多提示和示例视频，请保持关注。 https://news.ycombinator.com/vote?id=48534427&how=up&goto=item%3Fid%3D48528029 我对特定内容没有预设立场。我只是觉得这么多小时的精彩冒险应该更多样化。这让我怀疑你的 AI 是否真的很好地完成了索引。也让我觉得技术可能还没准备好？你以前去过 crazyguyonabike.com 吗？很久以前我有幸关注过一个朋友的朋友的朋友在那里的旅程： https://www.crazyguyonabike.com/doc/?doc_id=2405 大概是那样的内容？ https://news.ycombinator.com/vote?id=48531957&how=up&goto=item%3Fid%3D48528029 如果有人对本地离线搜索大型视频集感兴趣，我建议看看 Jumper： https://docs.getjumper.io/ 它附带了一些很酷的功能，比如 NLE 集成、人物搜索、MCP、API 等。免责声明：我是联合创始人之一。 https://news.ycombinator.com/vote?id=48532629&how=up&goto=item%3Fid%3D48528029 链接对我来说超时了。我在以色列，通过住宅 WiFi 连接。其他常用网站都正常访问。 https://news.ycombinator.com/vote?id=48530976&how=up&goto=item%3Fid%3D48528029 我一直在寻找一个解决方案来解决在 MPS 上运行 Docker 容器并利用其 GPU 性能的问题。我认为这个项目将是解决方案，我会尽快尝试并添加支持。非常感谢。 https://news.ycombinator.com/vote?id=48531277&how=up&goto=item%3Fid%3D48528029 我希望看到实际视频片段的嵌入在这类工作流中变得实用。帧级别嵌入涵盖了很多内容，但可能会错过很多与动作相关的搜索。 https://news.ycombinator.com/vote?id=48529262&how=up&goto=item%3Fid%3D48528029 标题应该链接到“全文”。我怀疑 OP 的域名被屏蔽了，所以他们这样做来绕过限制。 https://news.ycombinator.com/vote?id=48530038&how=up&goto=item%3Fid%3D48528029 非常欢迎您的反馈和建议，无论是源代码可用版本、桌面应用还是博客文章本身，您希望看到哪些改进或新功能？ https://news.ycombinator.com/vote?id=48534739&how=up&goto=item%3Fid%3D48528029 > 我拍摄的很多视频捕捉到了精彩瞬间，有时很难看完整个视频来找到这些瞬间。没错，我也有同样的问题。 > 然后，运行帧分析管道 [...] 我有一个使用自定义面部数据的人脸识别插件、物体检测、屏幕文字、镜头类型和场景描述 [...] 我们将有三个向量数据库集合，包含所有关于视频的信息，比如视频元数据位置、摄像机名称、识别出的人脸、检测到的物体、屏幕文字、转录文本、每个场景的描述等等 [...] 如果使用高级模式索引，使用 Qwen2.5-VL-7B-Instruct 模型来更好地理解和描述你的视频，但索引速度会慢一些。嗯……好吧 :）如果其他人也有类似的问题，真正的解决方案如下： 1. 录制时，如果你看到了值得保存的有趣时刻，按下电源键——这会在视频中标记当前时刻为一个章节。 2. 稍后在编辑时找到这些章节，把它们剪成片段。 3. 完成 :）这比上述疯狂的方法有两个主要好处： 1. 非常简单明了，而不是极其复杂且低效。 2. 会可靠地捕捉到你认为有趣的所有内容，因为是你自己在标记。缺点： 1. 无法追溯。 2. 如果你当时也错过了，可能也会错过有趣的内容。 3. 仅适用于这个用例。 4. 书呆子不会因为你使用了前沿技术而流口水。 https://news.ycombinator.com/vote?id=48531069&how=up&goto=item%3Fid%3D48528029 并非如此。抓取帧、降低分辨率、分类、合并元数据、转录音频、将这些数据（文本、视觉和音频）转化为嵌入，保存到向量数据库和 SQL 数据库中。这有助于我进行语义搜索、RAG、用视频截图搜索找到视频中的精确时刻，还可以用音频文件搜索。此外，向量数据库还解锁了其他功能。 https://news.ycombinator.com/vote?id=48532213&how=up&goto=item%3Fid%3D48528029 非常酷的作品和工作流。我强烈偏好这种本地的、开源的管道，由我控制，而不是依赖 Adobe 工具和锁定。 https://news.ycombinator.com/vote?id=48533725&how=up&goto=item%3Fid%3D48528029 我同意，感谢你的反馈。另外，也许你不是视频编辑，只是想搜索视频。视频编辑集成是可选的，你可以完全控制。你可以在 Adobe Premiere Pro、Final Cut Pro 或 DaVinci Resolve 之间切换。 https://news.ycombinator.com/vote?id=48533706&how=up&goto=item%3Fid%3D48528029 谢谢，我想知道你对这类项目的使用场景是什么，以及你想要生成什么样的提示？

我用我的 M1 Max 电脑和本地机器学习模型索引了 669 GB 的 GoPro 视频

相似文章

在2021款MacBook上使用Gemma4-31B（50GB交换空间）本地索引一年的视频

2台配备 512GB 内存的 M3 Ultra Mac Studio

@antirez: DeepSeek v4 PRO 通过SSD流式传输在我的128GB MacBook m5 max上运行。1.6万亿参数。

@googlegemma: AI 视频编辑器无法编辑未索引的内容。了解开发者如何在五年前的笔记本电脑上本地使用 Gemma 4 31B 处理……

@ivanfioravanti: Apple M5 Max + MLX = 原始算力！看看我正在玩的“FasterLivePortrait-MLX”演示，我从 MPS 开始，但结果不……

提交意见反馈