@atomic_chat_hq: 开放权重 MiniMax M3 通过驾照照片填写美国海关表格 本次测试中,我们部署了MiniMax M3…

X AI KOLs Timeline 模型

摘要

使用Mac Studio上的MLX-VLM对开放权重MiniMax M3模型进行的测试表明,它能够从驾照照片和扫描文档中自动读取信息,并通过工具调用填写字段、复选框和签名,自主完成美国海关表格的填写。

开放权重 MiniMax M3 通过驾照照片填写美国海关表格 本次测试中,我们使用Mac Studio M3 Ultra (512GB RAM)上的MLX-VLM部署了MiniMax M3 Q4。模型的任务是读取扫描的文档和身份证照片,然后填写一份申报表 输出:736 tokens · 输入:1,847 tokens · 时间:~31s 模型分析了两个输入,流式输出了其推理过程,然后调用了三个工具:write_field用于文本字段,mark用于是/否复选框,sign用于签名和日期。它提取了所需信息,将其映射到正确的字段,并完成了表格的填写,无需任何手动输入。
查看原文
查看缓存全文

缓存时间: 2026/06/15 21:09

开源权重模型 MiniMax M3 通过驾照照片填写美国海关申报表

此次测试中,我们在配备 512GB 内存的 Mac Studio M3 Ultra 上使用 MLX-VLM 部署了 MiniMax M3 Q4。模型的任务是读取扫描文档和身份证照片,然后填写一份申报表。

输出:736 个 token · 输入:1,847 个 token · 耗时:约 31 秒

模型分析了两份输入,流式输出推理过程,然后调用了三个工具:write_field 用于文本字段,mark 用于是/否复选框,以及 sign 用于签名和日期。它提取了所需信息,映射到正确的字段,并在没有任何手动输入的情况下完成了表单。

相似文章

MiniMax M3(2分钟阅读)

TLDR AI

MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。