我用我的 M1 Max 电脑和本地机器学习模型索引了 669 GB 的 GoPro 视频
摘要
一位开发者描述了如何使用 M1 Max Mac 和本地机器学习模型索引 669 GB 的 GoPro 视频素材,在 67 小时内处理了 57,537 帧画面。
TLDR:我有 2,207 段 GoPro 视频,需要重新观看以找出骑行旅程中的精彩瞬间。我构建了一个项目,使用开源机器学习模型在本地 M1 Max 上对这些视频进行索引,搜索这些瞬间,并将最佳片段直接发送到我的 DaVinci Resolve 时间线。我索引了 628 个视频(总计 668.68 GB,时长 15 小时 13 分钟 18 秒),更多详情见本文最后一节的指标表格。<p>完整文章:https://iliashaddad.com/blog/i-indexed-669-gb-of-my-gopro-videos-using-my-m1-max-computer
查看缓存全文
缓存时间: 2026/06/15 00:58
# 我用 M1 Max 电脑和本地 ML 模型索引了 669 GB 的 GoPro 视频
来源:https://news.ycombinator.com/item?id=48528029
https://news.ycombinator.com/vote?id=48533542&how=up&goto=item%3Fid%3D48528029
很棒,你的文章上首页时我就看过了,因为有人在评论里提到了我的项目。
文章和项目都做得很好。没错,本地模型确实越来越强了。
https://news.ycombinator.com/vote?id=48533341&how=up&goto=item%3Fid%3D48528029
> 然后,运行帧分析管道,将视频分成不同的视频场景(每段 1 秒,或 1fps)
> ...
> 分析的帧数:57,537
啊,这就完全合理了。这个数字比“669 GB”要合理得多,因为实际处理的帧总大小大概在 10-30 GB 左右。
(不是要贬低什么。在家做项目总是需要算一下实际可行性。)
> 总计算时间 67 小时 40 分 42 秒
不过我只是好奇——有没有什么付费方案可以加速这个过程?直接启动 GPU 实例?
https://news.ycombinator.com/vote?id=48533579&how=up&goto=item%3Fid%3D48528029
> 啊,这就完全合理了。这个数字比“669 GB”要合理得多,因为实际处理的帧总大小大概在 10-30 GB 左右。
之所以说是“669 GB”,是因为那是我做视频处理时的原始素材总大小。我把每一帧都缩小到 720p,这样处理速度快很多,而且根据我的了解和实践,不需要原始全画质也能获得准确的结果。
> 我只是好奇——有没有什么付费方案可以加速这个过程?直接启动 GPU 实例?
目前我发现 NVIDIA GPU(例如 RTX 3060 12GB VRAM)比我的 M1 Max 快得多。(还在优化速度和准确性。)
https://news.ycombinator.com/vote?id=48532856&how=up&goto=item%3Fid%3D48528029
出乎我意料的是,Google Photos 和 Apple Photos 给我推送了过去十年来我和孩子生活中的各种照片回忆和合辑,我比想象中更喜欢。
我真的很看好多给孩子拍视频,想着以后 AI 会越来越容易把它们编成小合辑,让我以后可以欣赏。
https://news.ycombinator.com/vote?id=48534722&how=up&goto=item%3Fid%3D48528029
你不在意 Google 用你孩子的数据来训练他们的模型和广告算法?
多年以后,他们可能会收到“嘿,看看 [自行车品牌] 最新款便宜自行车,记得你以前骑 [该品牌] 自行车的时候吗?”
https://news.ycombinator.com/vote?id=48533847&how=up&goto=item%3Fid%3D48528029
你同时用 Android 和 iOS 吗?还是说把个人媒体同时放在两个平台有其他好处?
https://news.ycombinator.com/vote?id=48530869&how=up&goto=item%3Fid%3D48528029
DaVinci Resolve 21 内置了索引功能(AI IntelliSearch)。不是要贬低你的工作,但这现在已经有很多用户可以使用了(可能只有 Studio 用户,因为名字里带 AI)。
https://news.ycombinator.com/vote?id=48530903&how=up&goto=item%3Fid%3D48528029
是的,我没看这个。但它是把你的视频上传到云端处理,还是本地处理?另外,它允许提供自定义面部数据来帮助标记视频中的人脸吗?
我记得 Adobe Premiere Pro 也有类似功能,但是云端处理的。
https://news.ycombinator.com/vote?id=48531113&how=up&goto=item%3Fid%3D48528029
DaVinci Resolve 的 AI 功能都是本地处理的。目前还没有人脸标签功能。
https://news.ycombinator.com/vote?id=48528875&how=up&goto=item%3Fid%3D48528029
你需要一个 LoRA 来实现这个,色情内容拒绝很严格。或者你需要一个被“消除”的模型,不确定视觉模型是否也适用。
你可能还想添加类似 YOLO 微调来检测场景,再加上人脸识别。
https://news.ycombinator.com/vote?id=48532417&how=up&goto=item%3Fid%3D48528029
对于这位网友的用途,人脸识别技术可以重新用于……嗯,其他身体部位的识别吗?有时候演员背对镜头。如果有些嘴唇露出来,也许会有帮助。
https://news.ycombinator.com/vote?id=48530840&how=up&goto=item%3Fid%3D48528029
为什么总是同样的问题?哈哈哈。我在 Reddit 上发布我的项目时也遇到了同样的问题哈哈哈。
https://news.ycombinator.com/vote?id=48529408&how=up&goto=item%3Fid%3D48528029
上次我尝试 Whisper 时,它从拍打和呻吟声中幻觉出一段复杂的对话,花了很长时间才逐句输出。
https://news.ycombinator.com/vote?id=48530475&how=up&goto=item%3Fid%3D48528029
Parakeet 模型经过训练可以检测非语音声音并将其排除在识别之外,所以用那个系列可能会更好。
https://news.ycombinator.com/vote?id=48532444&how=up&goto=item%3Fid%3D48528029
如果我没记错的话,Whisper 文档实际上建议剪掉非语音部分,因为模型在这些部分容易严重幻觉。
https://news.ycombinator.com/vote?id=48529120&how=up&goto=item%3Fid%3D48528029
不确定你是不是在讽刺,但我认为这个问题很有趣。DeepSeek 在这里会有用吗?因为它是本地的。
https://news.ycombinator.com/vote?id=48532435&how=up&goto=item%3Fid%3D48528029
只是因为是本地的,并不意味着它不会拒绝露骨内容。你当然可以尝试寻找被“消除”的模型,并尝试使用 unsloth 或类似工具进行正确微调。
https://news.ycombinator.com/vote?id=48530676&how=up&goto=item%3Fid%3D48528029
这也多少有点像“苹果”比“橘子”,有几个原因,但最关键的是:
- “统一”内存使所有系统内存都可作为 VRAM 使用
- 专用的 AI 协加速器
这两个原因使 Apple Silicon 芯片在这类 AI 模型工作负载上碾压传统 CPU。
不知道 Windows ARM 设备的能力如何。我知道它们用的是 Qualcomm Snapdragon 芯片。
https://news.ycombinator.com/vote?id=48530848&how=up&goto=item%3Fid%3D48528029
“相当”可能是指单核性能,但就内存带宽而言,M1 Max 快大约 8 倍。更宽的总线,更低的延迟,根本不是一个级别。
https://news.ycombinator.com/vote?id=48530877&how=up&goto=item%3Fid%3D48528029
关于你的问题,我无法否认或确认,因为我还没有在 Windows 机器或这种配置的机器上尝试过这个项目。
https://news.ycombinator.com/vote?id=48534163&how=up&goto=item%3Fid%3D48528029
很酷的构建,但你最后提供的示例视频……并不是我期望的从 2000 多个骑行视频中提取的精彩片段?比如狗叫的视频,只有同一个场景重复了两三次,而且只有五秒长?
https://news.ycombinator.com/vote?id=48534213&how=up&goto=item%3Fid%3D48528029
有道理,你想看什么样的示例视频?我可以做出来。
对于狗叫的视频,那只是视频中我检测到狗叫声的画面。
我会继续添加更多提示和示例视频,请保持关注。
https://news.ycombinator.com/vote?id=48534427&how=up&goto=item%3Fid%3D48528029
我对特定内容没有预设立场。我只是觉得这么多小时的精彩冒险应该更多样化。这让我怀疑你的 AI 是否真的很好地完成了索引。也让我觉得技术可能还没准备好?
你以前去过 crazyguyonabike.com 吗?很久以前我有幸关注过一个朋友的朋友的朋友在那里的旅程:
https://www.crazyguyonabike.com/doc/?doc_id=2405
大概是那样的内容?
https://news.ycombinator.com/vote?id=48531957&how=up&goto=item%3Fid%3D48528029
如果有人对本地离线搜索大型视频集感兴趣,我建议看看 Jumper:
https://docs.getjumper.io/
它附带了一些很酷的功能,比如 NLE 集成、人物搜索、MCP、API 等。
免责声明:我是联合创始人之一。
https://news.ycombinator.com/vote?id=48532629&how=up&goto=item%3Fid%3D48528029
链接对我来说超时了。我在以色列,通过住宅 WiFi 连接。其他常用网站都正常访问。
https://news.ycombinator.com/vote?id=48530976&how=up&goto=item%3Fid%3D48528029
我一直在寻找一个解决方案来解决在 MPS 上运行 Docker 容器并利用其 GPU 性能的问题。我认为这个项目将是解决方案,我会尽快尝试并添加支持。非常感谢。
https://news.ycombinator.com/vote?id=48531277&how=up&goto=item%3Fid%3D48528029
我希望看到实际视频片段的嵌入在这类工作流中变得实用。
帧级别嵌入涵盖了很多内容,但可能会错过很多与动作相关的搜索。
https://news.ycombinator.com/vote?id=48529262&how=up&goto=item%3Fid%3D48528029
标题应该链接到“全文”。我怀疑 OP 的域名被屏蔽了,所以他们这样做来绕过限制。
https://news.ycombinator.com/vote?id=48530038&how=up&goto=item%3Fid%3D48528029
非常欢迎您的反馈和建议,无论是源代码可用版本、桌面应用还是博客文章本身,您希望看到哪些改进或新功能?
https://news.ycombinator.com/vote?id=48534739&how=up&goto=item%3Fid%3D48528029
> 我拍摄的很多视频捕捉到了精彩瞬间,有时很难看完整个视频来找到这些瞬间。
没错,我也有同样的问题。
> 然后,运行帧分析管道 [...] 我有一个使用自定义面部数据的人脸识别插件、物体检测、屏幕文字、镜头类型和场景描述 [...] 我们将有三个向量数据库集合,包含所有关于视频的信息,比如视频元数据位置、摄像机名称、识别出的人脸、检测到的物体、屏幕文字、转录文本、每个场景的描述等等 [...] 如果使用高级模式索引,使用 Qwen2.5-VL-7B-Instruct 模型来更好地理解和描述你的视频,但索引速度会慢一些。
嗯……好吧 :)
如果其他人也有类似的问题,真正的解决方案如下:
1. 录制时,如果你看到了值得保存的有趣时刻,按下电源键——这会在视频中标记当前时刻为一个章节。
2. 稍后在编辑时找到这些章节,把它们剪成片段。
3. 完成 :)
这比上述疯狂的方法有两个主要好处:
1. 非常简单明了,而不是极其复杂且低效。
2. 会可靠地捕捉到你认为有趣的所有内容,因为是你自己在标记。
缺点:
1. 无法追溯。
2. 如果你当时也错过了,可能也会错过有趣的内容。
3. 仅适用于这个用例。
4. 书呆子不会因为你使用了前沿技术而流口水。
https://news.ycombinator.com/vote?id=48531069&how=up&goto=item%3Fid%3D48528029
并非如此。抓取帧、降低分辨率、分类、合并元数据、转录音频、将这些数据(文本、视觉和音频)转化为嵌入,保存到向量数据库和 SQL 数据库中。这有助于我进行语义搜索、RAG、用视频截图搜索找到视频中的精确时刻,还可以用音频文件搜索。此外,向量数据库还解锁了其他功能。
https://news.ycombinator.com/vote?id=48532213&how=up&goto=item%3Fid%3D48528029
非常酷的作品和工作流。我强烈偏好这种本地的、开源的管道,由我控制,而不是依赖 Adobe 工具和锁定。
https://news.ycombinator.com/vote?id=48533725&how=up&goto=item%3Fid%3D48528029
我同意,感谢你的反馈。另外,也许你不是视频编辑,只是想搜索视频。视频编辑集成是可选的,你可以完全控制。你可以在 Adobe Premiere Pro、Final Cut Pro 或 DaVinci Resolve 之间切换。
https://news.ycombinator.com/vote?id=48533706&how=up&goto=item%3Fid%3D48528029
谢谢,我想知道你对这类项目的使用场景是什么,以及你想要生成什么样的提示?
相似文章
在2021款MacBook上使用Gemma4-31B(50GB交换空间)本地索引一年的视频
一位开发者描述了在2021款MacBook上本地运行Gemma 4 31B模型,对一年未标记的野生动物视频进行语义索引,从而实现轻松搜索,并可通过DaVinci Resolve的IntelliSearch进行后期编辑。
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。
@antirez: DeepSeek v4 PRO 通过SSD流式传输在我的128GB MacBook m5 max上运行。1.6万亿参数。
DeepSeek v4 PRO,一个拥有1.6万亿参数的模型,通过SSD流式传输在128GB MacBook m5 max上运行,展示了本地运行大规模模型的能力。
@googlegemma: AI 视频编辑器无法编辑未索引的内容。了解开发者如何在五年前的笔记本电脑上本地使用 Gemma 4 31B 处理……
一名开发者在五年前的笔记本电脑上使用 Gemma 4 31B 处理并索引了一整年的原始视频,使其完全可搜索,展示了本地优先 AI 工具的潜力。
@ivanfioravanti: Apple M5 Max + MLX = 原始算力!看看我正在玩的“FasterLivePortrait-MLX”演示,我从 MPS 开始,但结果不……
作者演示了在搭载 M5 Max 芯片的设备上,将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后,性能和速度有了显著提升。