Perceptron Mk1 震撼发布高性能视频分析AI模型,比Anthropic、OpenAI和Google便宜80-90%(8分钟阅读)

TLDR AI 模型

摘要

Perceptron公司发布了其旗舰视频分析模型Mk1,声称成本比竞争对手低80-90%,同时在空间和视频推理基准上表现出色。

Mk1是一款视频分析AI模型,定价比Anthropic、OpenAI和Google等竞争对手便宜80-90%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 00:11

# Perceptron Mk1 震撼发布:高性能视频分析AI模型,成本比Anthropic、OpenAI和Google低80-90% 来源:https://venturebeat.com/technology/perceptron-mk1-shocks-with-highly-performant-video-analysis-ai-model-80-90-cheaper-than-anthropic-openai-and-google 能够看懂并理解视频(尤其是实时画面)中发生的一切的AI,对许多企业和组织来说无疑是一款极具吸引力的产品。除了充当场所和设施的安保“监视器”之外,这类AI模型还可用于从营销视频中剪辑出最精彩的部分并重新用于社交媒体,识别视频中的不一致和失误并标记删除,以及在对照研究或新职位候选人评估中识别参与者的肢体语言和动作。 尽管目前已有一些AI模型提供此类功能,但这远未成为主流能力。然而,成立两年的初创公司Perceptron Inc.正试图改变这一现状。今天,它宣布发布其旗舰级专有视频分析推理模型 Mk1(https://www.perceptron.inc/blog/introducing-perceptron-mk1)(“Mark One”的缩写),并通过其应用程序编程接口(API)定价——输入每百万token 0.15美元,输出每百万token 1.50美元——这比Anthropic的Claude Sonnet 4.5、OpenAI的GPT-5以及Google的Gemini 3.1 Pro等其他主要专有竞争对手便宜约80-90%。 Perceptron Mk1成本帕累托图。图片来源:Perceptron 该公司由曾任Meta FAIR和微软的联合创始人兼CEO Armen Aghajanyan领导,历时16个月从头开发了一套“多模态方案”,以应对物理世界的复杂性。 此次发布标志着一个新时代的到来:模型被期望能够像曾经熟练掌握语法一样,流畅地理解因果关系、物体动力学以及物理定律。 感兴趣的用户和潜在企业客户可以通过Perceptron的公开演示站点(https://www.perceptron.inc/demo)亲自体验。 ## **空间与视频基准测试性能** 该模型的性能基于一系列专注于具身理解的行业标准基准测试。 Perceptron Mk1基准测试对比表。图片来源:Perceptron 在空间推理(ER基准测试)中,Mk1在EmbSpatialBench上取得了85.1分的成绩,超越了Google的Robotics-ER 1.5(78.4分)和阿里巴巴的Q3.5-27B(约84.5分)。 在专门的RefSpatialBench测试中,Mk1的得分72.4分,相较于GPT-5m(9.0分)和Sonnet 4.5(2.2分)等竞争对手实现了巨大飞跃,凸显了其在指代表达理解方面的显著优势。 Perceptron Mk1视频基准测试对比图。图片来源:Perceptron 视频基准测试同样显示出其主导地位:在EgoSchema“困难子集”(仅靠首帧和末帧推理无法应对)上,Mk1得分为41.4分,与阿里巴巴的Q3.5-27B持平,并大幅超越Gemini 3.1 Flash-Lite(25.0分)。 在VSI-Bench测试中,Mk1达到88.5分,是所比较模型中最高记录得分,进一步验证了其处理实际时序推理任务的能力。 ## **市场定位与效率前沿** Perceptron明确瞄准了“效率前沿”——这一指标将视频和具身推理基准测试的平均得分与每百万token的综合成本进行了对比。 基准测试数据显示,Mk1占据了一个独特的位置:它在性能上达到或超越GPT-5和Gemini 3.1 Pro等“前沿”模型,同时保持着接近“Lite”或“Flash”版本的成本水平。 具体来说,Perceptron Mk1定价为:输入每百万token 0.15美元,输出每百万token 1.50美元。相比之下,“效率前沿”图表显示,GPT-5的综合成本显著更高(接近2.00美元),Gemini 3.1 Pro约为3.00美元,而Mk1以0.30美元的综合成本获得了更优的推理评分。 这一激进的定价策略旨在使高端物理AI能够用于大规模工业应用,而不仅仅是实验性研究。 ## **架构与时间连续性** Perceptron Mk1的技术核心在于其能够以高达每秒2帧(FPS)的速率处理原生视频,并在32K token的显著上下文窗口内进行。 与那些通常将视频视为不连续静态图像序列的传统视觉语言模型(VLM)不同,Mk1专为时间连续性而设计。 这种架构使模型能够“观看”长流视频,并在物体被遮挡时仍能保持其身份识别,这是机器人和监控应用的关键需求。 开发者可以查询模型在长视频流中的特定时刻,并收到结构化时间码作为回应,从而简化视频剪辑和事件检测流程。 ## **遵循物理定律进行推理** Mk1的一个主要差异化优势在于其“物理推理”能力。Perceptron将其定义为一种高精度空间感知能力,使模型能够理解真实世界环境中的物体动力学和物理交互。 例如,该模型可以分析一个场景,通过同时推理球在空中的位置和计时器上的读数,判断一次投篮是在蜂鸣器响起之前还是之后完成。 这需要的不仅仅是模式识别,还需要理解物体如何穿越空间和时间运动。 该模型能够在密集、复杂的场景中实现“像素级精准”的指向和计数(可达数百)。它还能读取模拟仪表和时钟,而这些对于纯数字视觉系统来说历来难以高可靠性地解读。 它似乎还具备强大的通用世界知识和历史知识。在我的一次简短测试中,我上传了一段来自美国国会图书馆、标注日期为1906年(https://www.loc.gov/item/00694391)的纽约市摩天大楼施工的公有领域老电影,Mk1不仅能够正确描述视频内容——包括工人被绳索悬吊等奇特、非典型的景象——而且速度很快,甚至仅凭画面外观就正确识别出了大致的年代(20世纪初)。 Perceptron Mk1 VentureBeat演示测试截图 ## **面向物理AI的开发者平台** 伴随模型发布的是一个扩展的开发者平台,旨在将这些高级感知能力转化为功能应用,且只需极少量代码。 Perceptron SDK通过Python提供,引入了几个专门功能,如“聚焦(Focus)”、“计数(Counting)”和“上下文学习(In-Context Learning)”。 聚焦功能允许用户根据自然语言提示自动放大并裁剪到帧中的特定区域,例如在建筑工地上检测并定位个人防护装备(PPE)。计数功能针对密集场景进行了优化,例如识别并指向一群小狗中的每一只或单个农产品。 此外,该平台支持上下文学习,允许开发者仅通过提供几个示例(例如展示一张苹果图片并指示模型在新场景中标记每个类别1的实例)就将Mk1适配到特定任务。 ## **许可策略与Isaac系列** Perceptron对其模型权重和许可采用双轨策略。旗舰版Perceptron Mk1是通过API访问的闭源模型,专为企业级性能和安全而设计。 然而,该公司也保留了“Isaac”系列,该系列始于2025年9月发布的Isaac 0.1(https://www.perceptron.inc/blog/introducing-isaac-0-1),作为开放权重的替代方案。2025年12月发布的Isaac 0.2-2b-preview(https://www.perceptron.inc/blog/introducing-isaac-0-2)是一个拥有20亿参数的视觉语言模型,具备推理能力,适用于边缘和低延迟部署。 虽然Isaac模型的权重已在流行的AI代码分享社区Hugging Face(https://huggingface.co/PerceptronAI)上开放,但Perceptron也为需要最大控制权或希望本地部署权重的公司提供商业许可。 这种方法使公司能够同时支持开源社区和需要专有灵活性的特定工业合作伙伴。文档指出,Isaac 0.2模型特别针对低于200毫秒的首token生成时间进行了优化,使其成为实时边缘设备的理想选择。 ## **Perceptron创立背景与专注方向** Perceptron AI是一家位于华盛顿州贝尔维尤的物理AI初创公司,由Aghajanyan和Akshat Shrivastava共同创立,两人此前均为Meta的Facebook AI Research(FAIR)实验室的研究科学家。 该公司公开资料显示其创立于2024年11月,而华盛顿州公司备案记录显示Perceptron.ai Inc.早前于2024年10月9日(https://www.bizprofile.net/wa/carnation/perceptron-ai-inc?utm_source=chatgpt.com)提交了外国注册文件,并将Shrivastava和Aghajanyan列为管理者。 在2024年底的创始人启动帖子中,Aghajanyan(https://www.linkedin.com/posts/armenag_after-nearly-6-years-at-meta-im-excited-share-7265412761990369280-Aoyw/?utm_source=chatgpt.com)表示他在Meta工作了近六年后离开,“与Shrivastava联手”为物理世界构建AI,而Shrivastava则表示公司源于他在效率、多模态和新模型架构方面的工作。 此次创建立即紧随两人在Meta从事多模态基础模型的研究工作。2024年5月,Meta研究人员发表了Chameleon(https://www.researchgate.net/publication/380635519_Chameleon_Mixed-Modal_Early-Fusion_Foundation_Models?utm_source=chatgpt.com),这是一系列早期融合模型,旨在理解和生成文本与图像的混合序列,Perceptron后来将其描述为其自身模型血统的一部分。 2024年7月的后续论文MoMa(https://arxiv.org/abs/2407.21770)探索了针对混合模态模型更高效的早期融合训练方法,Shrivastava和Aghajanyan均被列为作者。Perceptron宣称的主题是将这一研究方向延伸至“物理AI”:能够处理现实世界视频和其他感官流的模型,用于机器人、制造、地理空间分析、安全和内容审核等场景。 ## **合作伙伴生态系统与未来展望** Mk1的实际影响力已通过Perceptron的合作伙伴网络得到体现。早期采用者正在将该模型用于多样化的应用,例如从直播体育赛事中自动剪辑精彩片段,这利用模型的时间理解能力来识别关键比赛,无需人工干预。 在机器人领域,合作伙伴正在将遥操作片段整理成训练数据,从而有效地自动化标记和清洗机械臂及移动单元数据的过程。 其他用例包括:制造线上的多模态质量控制代理,能够实时检测缺陷并验证装配步骤;以及智能眼镜上的可穿戴助手,为用户提供上下文感知帮助。 Aghajanyan表示,这些发布是旨在让AI在物理世界中发挥最佳作用的研究的结晶,正朝着“物理AI”像数字AI一样无处不在的未来迈进。

相似文章

@cyrilXBT:中国刚刚打造了一款AI模型,以极低成本与OpenAI和Anthropic正面竞争。而且有人刚刚发布了一门免费课程……

X AI KOLs Timeline

DeepSeek是一款由中国量化对冲基金开发的AI模型,据报道其训练成本仅为GPT-4的约5%,却能达到相当的性能水平,引发了市场剧烈震荡,导致NVIDIA单日市值蒸发6000亿美元。目前已有人发布了一门时长1小时50分钟的免费课程,教用户如何在本地及通过API使用DeepSeek V4。

OpenAI o1-mini

OpenAI Blog

OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。