使用 GPT-4o 视觉微调构建更智能的地图
摘要
Grab 利用 OpenAI 的 GPT-4o 视觉微调功能改进 GrabMaps,在速度限制标志定位(13%)、车道计数(20%)方面取得显著精度提升,并减少了东南亚复杂路网的手动制图工作量。
使用 GPT-4o 视觉微调构建更智能的地图
查看缓存全文
缓存时间: 2026/04/20 14:47
# Grab 利用视觉微调技术为东南亚构建更智能的地图
来源:https://openai.com/index/grab/
Grab(https://www.grab.com/sg/)是东南亚领先的美食配送和网约车公司,在八个国家拥有近 4,200 万月活跃用户。
Grab 平台上注册了超过 600 万名司机合作伙伴,2023 年完成了 35 亿笔年交易量。Grab 的影响力超越了网约车和美食配送服务。Grab 将从司机收集的街景图像转化为制图数据,用于驱动 GrabMaps——一项地图服务,为其在东南亚的所有运营提供支持。
GPT-4o 视觉微调使该服务能够准确识别交通标志位置并计算车道分隔线,从而完善制图数据。如今,GrabMaps 不仅支持 Grab 的服务,还通过其位置智能功能为企业客户提供服务。
东南亚为地图绘制呈现了独特的挑战性环境。该地区的道路网络包括为摩托车和行人优化的狭窄单向街道、快速变化的城市景观,以及传统地图提供商覆盖范围有限的地区。
> "为了满足该地区的需求,我们必须建立超本地化和动态的地图系统——随着东南亚的发展而不断更新地图。"
Grab 地理制图数据科学负责人 Adrian Margin
Grab 转向 OpenAI 的 GPT-4o 视觉微调技术来克服这些障碍。
通过利用由摩托车司机和步行配送员组成的网络(每个配送员都配备 360 度摄像头),GrabMaps 收集了数百万张街景图像,用于训练和微调模型以进行详细的地图绘制。
GPT-4o 的视觉微调能力使 GrabMaps 能够更准确地识别限速标志、转弯限制、地点和道路几何信息。
Grab 的初期实验重点是将限速标志与对应的道路进行匹配。
该团队仅使用 100 个样本进行 GPT-4o 微调,结合街景图像和地图图块,并通过多次超参数调整迭代以提高准确度。
从 67% 的基准准确度开始,模型在两轮微调后改进到 80%——提高了 13 个百分点。
该模型在处理复杂场景(如高架道路和遮挡情况)方面表现出色,这些情况之前需要大量手动干预。通过交叉参考街景图像和地图图块,该模型做出了类似于人工操作员的上下文感知决策。
"使用我们的数据微调 GPT-4o 使我们能够有效处理复杂几何形状,减少手动干预和运营成本," Grab 地理制图数据科学负责人 Adrian Margin 表示。
实施视觉微调显著提升了 GrabMaps 的效率和准确性:
- 车道计数准确度提高 20%
- 限速标志识别准确度提高 13%
- 减少手动制图工作,降低运营成本并提高数据质量信任度
- 增强处理高架标志和遮挡等复杂场景的能力,减少地图输出中的错误
这些改进为 Grab 的内部运营和企业客户提供了更可靠的平台。超详细地图现在能更好地服务于每天数百万用户和司机合作伙伴的需求,促进了该地区的经济活动。
"GrabMaps 不仅仅是我们的工具——它是我们对东南亚承诺的体现。OpenAI 的视觉微调使我们的地图绘制流程更快、更智能、更经济高效," Margin 补充说。
Grab 继续扩展其人工智能能力,使其平台更易于使用和响应更加迅速。一款为视障和老年用户提供对话式多语言支持的语音助手正在开发中,以简化应用导航。
Grab 也在构建一个高级支持聊天机器人来处理复杂咨询。通过理解详细的标准操作流程(SOP)并提供富有同情心的定制化响应,聊天机器人旨在改善用户体验,同时实现高效扩展。
"我们一直是该地区人工智能应用的先驱,相信人工智能在解决合作伙伴和用户问题方面具有巨大潜力," Grab 首席产品官 Philipp Kandal 表示。"我们很高兴与 OpenAI 合作,共同加速这项技术的探索和应用。"
## 继续阅读
相似文章
为微调 API 引入视觉功能
OpenAI 为 GPT-4o 推出视觉微调功能,允许开发者使用图像数据和文本对模型进行定制,以在视觉搜索、物体检测和医学影像分析等视觉任务中提升性能。
MapAgent:面向城市级车道级地图生成的工业级自主框架
MapAgent 是一个工业级自主框架,融合视觉语言处理与约束感知推理,能够自动生成符合规范的车道级地图,已在百度地图中为超过360个城市实现了95%以上的自动化。
GPT-3.5 Turbo 微调和 API 更新
OpenAI 推出了 GPT-3.5 Turbo 的微调功能,允许开发者为特定用例定制模型,以获得更好的性能、可控性和输出格式。该更新使得经过微调的 GPT-3.5 Turbo 能够在某些任务上匹配 GPT-4 的性能,同时可将提示词大小减少 90%。
GPT-4V(ision) 系统卡
OpenAI 发布了 GPT-4V(ision) 的系统卡,详细说明其安全属性和评估结果。GPT-4V(ision) 在 GPT-4 的基础上增加了图像输入功能,支持多模态指令跟随和视觉分析。
微调 GPT-3 以扩展视频创作能力
Waymark 微调 GPT-3 以自动生成营销文案和视频脚本,解决了关键的客户痛点——三分之二的用户在为视频广告编写脚本时遇到困难。