智能体购物,重新定义智能,图片文字优化,高参与度意味着对齐更差

The Batch 新闻

摘要

吴恩达讨论美国政策如何促使盟友转向主权AI和开源模型,并以DeepSeek、Qwen和K2 Think为例。他认为开源AI可以帮助各国减少对美国技术的依赖。

The Batch AI 新闻与洞察:美国政策正促使盟友远离使用美国AI技术。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:37

# 智能体开始购物,重新定义智能,图片中更好的文字,以及更多…… 来源:https://www.deeplearning.ai/the-batch/issue-338/ 亲爱的朋友们, 美国的政策正促使盟友远离使用美国人工智能技术。这引发了人们对主权AI的兴趣——即一个国家在不依赖外国势力的情况下获取AI技术的能力。这削弱了美国的影响力,但可能会加剧竞争,并推动对开源的支持。 美国发明了晶体管、互联网以及驱动现代AI的Transformer架构。长期以来,它一直是一个技术强国。我热爱美国,并正为其成功而努力。但多年来,多届美国政府采取的行动,已使其他国家担忧过于依赖美国。 2022年,在俄罗斯入侵乌克兰后,美国对与俄罗斯寡头相关的银行实施制裁,导致普通消费者的信用卡被停用。在离任前不久,拜登实施了“AI扩散”出口管制,限制了许多国家(包括美国盟友)购买AI芯片的能力。 在特朗普领导下,“美国优先”的做法显著加速了其他国家疏远的进程。美国对盟友和对手都加征了广泛且混乱的关税。威胁要接管格陵兰岛。对移民采取不友好的态度——这是对拜登政府期间南部边境混乱局面的过度反应——包括ICE(移民和海关执法局)采取的可怖策略,导致执法人员枪杀了Renée Good、Alex Pretti等人。全球媒体广泛传播了ICE恐吓美国城市的视频,而我在海外的一些高技能、守法的朋友现在因担心被任意拘留而犹豫是否前往美国。 鉴于AI的战略重要性,各国希望确保没有外国势力能切断他们的访问渠道。因此,主权AI应运而生。 “主权AI”仍然是一个模糊而非精确定义的概念。完全独立并不现实:美国设计、台湾制造的AI芯片没有好的替代品,而许多能源设备和计算机硬件在中国制造。但各国明显希望拥有美国领先公司OpenAI、Google和Anthropic前沿模型的替代方案。部分由于这个原因,像DeepSeek、Qwen、Kimi和GLM这样的中国开源权重模型正在迅速被采用,尤其是在美国以外。 世界地图上标注了全球AI中心,突显了日益增长的主权AI发展。 在主权AI方面,幸运的是,无需构建一切。通过加入全球开源社区,一个国家可以确保自己对AI的访问权。目标不是控制一切;而是确保没有人能控制你如何使用它。事实上,各国都在使用像Linux、Python和PyTorch这样的开源软件。尽管没有哪个国家能控制这些软件,但也没有人能阻止任何人以他们认为合适的方式使用它们。 这正促使各国加大对开源和开放权重模型的投入。阿联酋(由我以前的同学Eric Xing领导!)刚刚发布了K2 Think,一个开源推理模型。印度、法国、韩国、瑞士、沙特阿拉伯等国正在开发国内基础模型,而更多国家正在努力确保对其控制下或受信任盟友控制的计算基础设施的访问权。 全球分裂和民主国家间信任的侵蚀是坏事。尽管如此,如果这能带来更多竞争,也算一线希望。美国搜索引擎Google和Bing曾主导全球网络搜索,但百度(中国)和Yandex(俄罗斯)在当地表现良好。如果各国支持本国冠军企业——考虑到巨头的优势,这绝非易事——也许我们最终会拥有更多蓬勃发展的公司,这将减缓整合速度并鼓励竞争。此外,参与开源是各国保持技术前沿最廉价的方式。 上周 (https://www.deeplearning.ai/the-batch/issue-337/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG),在达沃斯世界经济论坛上,许多商业和政府领导人谈到他们越来越不愿依赖美国技术提供商,并渴望替代方案。具有讽刺意味的是,“美国优先”政策最终可能会加强世界对AI的访问。 继续构建吧! Andrew --- ## DEEPLEARNING.AI 消息 宣传横幅:"Agent Skills with Anthropic" (https://www.deeplearning.ai/short-courses/agent-skills-with-anthropic/) “Agent Skills with Anthropic” 向您展示如何通过将工作流逻辑从提示中移出并放入可复用的技能中,使智能体更加可靠。学习如何在编码、数据分析、研究以及其他工作流中设计和应用技能。 立即注册 (https://www.deeplearning.ai/short-courses/agent-skills-with-anthropic/) ## 新闻 UCP 概览图,展示了从产品发现、身份关联到订单管理的流程。 Google 引入了一个开源协议,旨在使AI智能体能够帮助消费者在线购物,从寻找商品到必要时退货。 **最新消息:** 通用商务协议 (Universal Commerce Protocol, UCP) (https://developers.googleblog.com/under-the-hood-universal-commerce-protocol-ucp/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 提供了标准化命令,用于编程智能体代表消费者、平台、供应商和支付提供商执行交易。智能体可以呈现选项、提交订单、组织支付和管理履约。企业可以声明自己支持的功能,提供自动化和/或个性化购物服务,和/或促进交易。UCP 根据 Apache 2.0 许可证发布。 **工作原理:** UCP 使智能体能够利用现有的零售搜索、支付和供应商基础设施运行。Google 与电商公司(包括 Etsy、Shopify、Target、Walmart 和 Wayfair)以及支付提供商(包括 American Express、Mastercard、Stripe 和 Visa)合作开发了该协议。 - 该协议 (https://github.com/Universal-Commerce-Protocol/ucp?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 定义了用于与消费者(包括账户和凭据)、平台(如搜索引擎或在线商店)、供应商、商品或服务(包括属性、特性、价格以及忠诚度积分等特殊考虑)、支付、履约和交付进行交互的命令和变量。 - 它使用开放标准进行支付、身份和安全。同样,它与多种开放的智能体协议兼容,包括模型上下文协议 (Model Context Protocol) (https://www.deeplearning.ai/the-batch/openai-adopts-model-context-protocol-to-boost-llm-tool-integration/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)(访问工具和数据)、Agent2Agent (https://github.com/a2aproject/A2A?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)(智能体间协作)以及智能体支付协议 (Agent Payments Protocol) (https://www.deeplearning.ai/the-batch/googles-ap2-gives-developers-new-tools-to-build-agentic-payments/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)(与支付提供商的安全交互)。它与 OpenAI 的智能体商务协议 (Agentic Commerce Protocol) (https://developers.openai.com/commerce/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 竞争,但两者可以协同工作。 - Google 使用 UCP 在 Gemini 应用和 Google Search AI 模式(可通过点击搜索引擎 AI 概览底部的“在 AI 模式下深入探索”获得)生成的 AI 响应中呈现待售产品。这些 AI 生成的产品列表可通过 Google Pay 接受付款,并通过 Google Wallet 或 PayPal 存储的凭据进行身份验证。 **幕后新闻:** Google 推出了 UCP 以及一系列用于 AI 电商的功能 (https://blog.google/products/ads-commerce/agentic-commerce-ai-tools-protocol-retailers-platforms/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)。 - 商业智能体 (Business Agent) (https://support.google.com/brandprofile/answer/16410382?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 使公司能够构建一个有品牌的智能体,可以在 Google 搜索上与潜在客户交谈。初始参与者包括 Lowe's、Michael's、Poshmark 和 Reebok。 - 一个名为 Direct Offers 的试点计划,向使用 Google 搜索 AI 模式查找待售商品信息的用户提供特别优惠。 - 零售商可以向 Google 的商家中心添加新型信息,这可能会鼓励 Google 搜索 AI 模式、Gemini 和商业智能体提及他们的名称。这些信息包括特定商品的配件、特定商品的替代品以及常见问题的答案。 **重要性:** 消费者越来越多地转向聊天机器人获取产品信息和建议。UCP 简化了购买用户找到的商品(这使消费者受益)并鼓励冲动购买(对供应商有利)。它还补充了 Google 的广告业务,因为该公司正在试验 (https://www.bloomberg.com/news/articles/2025-04-30/google-places-ads-inside-chatbot-conversations-with-ai-startups?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 在聊天机器人中展示广告。它还可能为大规模企业构建独立智能体以协作管理整个供应链开辟道路。 **我们的思考:** UCP 是一个开放协议,但商家采用显然有利于 Google 和其他聚合器。在更早的时代,Google 曾试图通过 Google Shopping 主导消费者搜索,但效果有限。如果 Google 说服供应商开放他们的目录,以便 Gemini 和其他聊天机器人能帮助用户购物,它可能会以一种赋予聊天机器人运营商巨大权力的方式整合购物。 --- 拼贴画:连环画、音乐会海报、水循环和垃圾分类图表以及电影海报。 ## 改进图片中的文字 图像生成器常常搞砸文字。一个开放权重模型在文本渲染方面超越了开放和专有竞争对手。 **最新消息:** Z.ai 发布了 GLM-Image (https://z.ai/blog/glm-image?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG),这是一个开放权重的图像生成器,分两个阶段工作。一个阶段确定图像的布局,而第二个阶段填充细节。你可以在这里尝试 (https://huggingface.co/spaces/multimodalart/GLM-Image?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)。 - **输入/输出:** 文本、文本加图像输入,图像输出(1,024x1,024 像素至 2,048x2,048 像素) - **架构:** 自回归Transformer(90亿参数),基于早期 GLM-4-9B-0414 (https://huggingface.co/zai-org/GLM-4-9B-0414?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 微调;解码器(70亿参数),基于早期扩散Transformer CogView4 (https://huggingface.co/zai-org/CogView4-6B?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 和 Glyph-ByT5 (https://arxiv.org/abs/2403.09622?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 文本编码器 - **特性:** 图像修改、风格迁移、身份一致性、多主体一致性 - **可用性:** 根据 MIT 许可证,权重可免费下载 (https://huggingface.co/zai-org/GLM-Image?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 用于非商业和商业用途,API 访问 (https://docs.z.ai/guides/overview/pricing?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG) 每张图像 $0.015 - **未披露:** 训练数据 **工作原理:** 给定文本或文本加图像提示,GLM-Image 的自回归模型生成大约256个低分辨率token,代表输出图像逐块的布局,然后生成1,000到4,000个更高分辨率的token(取决于输出图像的分辨率),代表相应更小的块。为了提高文本渲染质量,Glyph-ByT5 文本编码器生成代表每个待渲染字符形状的token。解码器接收高分辨率token和文本token,并生成图像。 - 团队使用 GRPO(一种强化学习方法)分别训练了两个组件。 - 自回归模型从三个奖励中学习:(i) 一个未指定的视觉语言模型评估图像与提示的匹配程度;(ii) 一个未指定的光学字符识别模型对生成文本的可读性进行评分;(iii) HPSv3 (https://arxiv.org/abs/2508.03789?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG),一个基于人类偏好训练的模型,评估视觉吸引力。 - 解码器从三个与细节相关的奖励中学习:LPIPS (https://arxiv.org/pdf/1801.03924?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG),评估输出与参考图像的接近程度;一个未指定的光学字符识别模型对生成文本的可读性进行评分;以及一个未指定的手部正确性模型对生成手部的解剖学正确性进行评分。 **性能:** 在 Z.ai 的测试中 (https://z.ai/blog/glm-image?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG),GLM-Image 在渲染英语和中文文本方面领先于开放权重模型,但在遵循提示方面表现中等。Z.ai 未公布美学质量测试的结果。 - 在 CVTG-2K (https://arxiv.org/abs/2503.23461?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz--jlCYITSykev8ODecGx9q0tH8Coln9qaw838TEzw3uKSZpnjXA6UrgLrzMY1Mj6AoeZ6BG)(一个测试英语文本渲染的基准)上,GLM-Image 实现了约91.16%的平均单词准确率,优于开放权重模型 Z-Image(86.71%)和 Qwen-Image-2512(86.04%)。它还超越了专有模型 Seedream 4.5(89.9%)。 - 在 LongText-Bench (https://huggingface.co/data

相似文章

美国制造的创新

OpenAI Blog

# 美国制造的创新 来源: [https://openai.com/global-affairs/american-made-innovation/](https://openai.com/global-affairs/american-made-innovation/) [\(opens in a new window\)](https://x.com/OpenAI)[\(opens in a new window\)](https://www.youtube.com/OpenAI)[\(opens in a new window\)](https://www.linkedin.com/company/openai)[\(opens in a new window\)](https://github.com/openai)[\(opens in a new window\)](https://www.instagram.com/openai/)[\(opens in a new window\)](https://www.tiktok.com

要击败中国,拥抱开源AI(WSJ)

Reddit r/LocalLLaMA

华尔街日报评论文章认为,美国应拥抱开源AI发展,将其作为对抗中国AI雄心的战略优势,而非限制AI技术。