大规模防止AI推理窃取(5分钟阅读)

TLDR AI 新闻

摘要

Vercel详细介绍了AI推理窃取这一日益严重的威胁(攻击者窃取并转售API令牌),并说明了如何利用其BotID系统验证每一条AI请求以防止滥用。

Vercel概述了攻击者如何通过利用暴露的端点转售窃取的AI推理,并强调了传统速率限制为何往往不足。文章描述了一种使用BotID分析验证每一条AI请求以减少滥用的方法。
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:35

# 防范令牌窃取 来源:https://vercel.com/blog/protecting-against-token-theft HTTP 请求成本极低。Vercel 收费约为每百万次 $2,单次调用仅需几分之一美分。但向前沿模型的一次智能体请求可能花费 $2,这使得 AI 成本高出百万倍,而推理窃取也成为攻击者能运营利润率最高的业务之一。我们在自有 API 上就遇到过此类攻击。 如果你的 AI 端点暴露在互联网上,滥用风险很高,很容易产生数万甚至数十万美元的账单。 保护这些端点需要在每次 AI 请求时运行验证,而非在会话或注册时检查。仅靠速率限制和身份验证墙是不够的,因为每次会话运行一次的检查,一旦被绕过,后续数千次盗用调用中就会分摊掉一次验证成本。 在 Vercel,我们通过 BotID(https://vercel.com/docs/botid)的深度分析来拦截每一次 AI 请求,你也可以在自己的端点上(https://vercel.com/blog/protecting-against-token-theft#how-to-defend-against-inference-theft)用几行代码实现同样的保护。 ## 什么是推理窃取(https://vercel.com/blog/protecting-against-token-theft#what-inference-theft-is) 推理窃取是指未经授权使用他人付费的 AI 推理能力,用于免费使用或下游转售。运营者按 AI 调用付费;攻击者不支付推理成本,然后以折扣价转售令牌。这超越了速率限制滥用,实际上是盗用资源并在市场上倒卖。 ### 哪些 AI 端点存在风险(https://vercel.com/blog/protecting-against-token-theft#which-ai-endpoints-are-at-risk) 任何面向互联网、允许调用者对 LLM 提示有实际控制权的端点都是目标。端点越通用,每次盗用调用的收益就越高。 AI 游乐场,例如 AI SDK Playground(https://ai-sdk.dev/playground),是最危险的形态,因为调用者对提示、模型甚至参数拥有最大控制权。盗用调用可以干净地接入任何标准客户端。 支持机器人和文档助手在系统提示固定于服务端时暴露较少,但攻击者已经学会如何以足够低的成本绕过系统提示,使转售变得可行。 转售价值取决于盗用调用能否轻松接入兼容特定提供商的客户端。 ### 为什么 Web 防御无法缓解推理窃取(https://vercel.com/blog/protecting-against-token-theft#why-web-defenses-don't-mitigate-inference-theft) IP 速率限制和身份验证墙是为了抵御单次调用经济性极低的攻击而设计的,那时获取 IP 和注册账号的成本不值得投入。 盗用推理的回报足够高,攻击者会批量采购住宅代理 IP,并大规模注册一次性账号,直到攻破你的防御。速率限制被 IP 地址池稀释,而真实账号则能通过身份验证。 ## 滥用攻击的架构(https://vercel.com/blog/protecting-against-token-theft#the-architecture-of-abuse) 老练的攻击者会将你的自定义 AI 端点包装成 OpenAI 或 Anthropic 兼容的适配器,并通过住宅代理分发调用。 适配器是关键组件。它是一次性的工程投入,将受害者的特制 API 呈现为 OpenAI 或 Anthropic 兼容,这样盗用的推理就能接入任何标准的编码智能体或 SDK。即使以标价的 5% 到 10% 转售,且边际推理成本为零,也能带来丰厚的利润。 近期的例子是 Chipotlai Max(https://github.com/cyberpapiii/chipotlai-max),一个分支编码智能体,自带代理将 Chipotle 的客户支持聊天机器人转换为 OpenAI 兼容端点。该项目公开寻求帮助,将同样的推理窃取方法移植到 Home Depot、Lowe's、Target 和 Starbucks。 适配器同时也是攻击者下游用户的会话边界。他们向适配器认证,而非你的端点。当调用到达你的 API 时,它已经越过了你原本打算防御的边界。检查必须在适配器代理的每次调用上运行,而不是在其背后的会话上。 ### 我们端点遭受的真实攻击形态(https://vercel.com/blog/protecting-against-token-theft#the-shape-of-a-real-attack-on-our-own-endpoint) 2026 年 4 月 12 日,Vercel 文档 AI 聊天端点的流量在 Anthropic 的 Claude Haiku 4.5 模型上飙升到正常水平的约十倍。峰值时流量达到每分钟 1300 次请求,这将导致每日推理成本超过一万美元。 攻击通过住宅代理发起,隐藏了真实客户端 IP。在两天内数十万次机器人请求中,标准的基于 IP 的速率限制几乎没有任何作用。 ## 如何防御推理窃取(https://vercel.com/blog/protecting-against-token-theft#how-to-defend-against-inference-theft) 保护 AI 端点免受推理窃取需要对每次请求进行验证。我们使用 Vercel BotID 的深度分析,在路由处理器内、AI 请求发送前调用。 ### 验证必须在每次 AI 请求上运行(https://vercel.com/blog/protecting-against-token-theft#verification-has-to-run-on-every-ai-request) 如果我们的拦截在会话开始时运行而非每次请求,攻击者只需一次绕过成本,就能获取数十万次盗用调用。任何每次会话运行的检查都会将攻击者的绕过成本分摊到后续每次推理调用上。每次请求的拦截迫使成本比降为 1:1,即使在推理价格较高的情况下,每次调用都破解验证也不值得。 这正是成本不对称有利于防御者的地方。推理是攻击者盗用的最昂贵资源(按次计算),而验证是每次调用成本最低的保护措施之一。 ### 使用 BotID 深度分析实现请求验证(https://vercel.com/blog/protecting-against-token-theft#implementing-request-verification-with-botid-deep-analysis) 传统的图片验证码已无法抵御现代攻击者,因为同样使得推理值得盗用的 AI 模型可以轻松绕过它们。 我们在 AI 端点上部署了 Vercel BotID(https://vercel.com/botid),拦截每次请求。BotID 是一种隐形验证码,结合 Kasada 驱动的深度分析(https://vercel.com/docs/botid#deep-analysis),利用客户端机器学习区分人类和机器人,无需可见挑战,因此可以在每次请求上运行,而不仅限于会话开始。 BotID 深度分析在流量激增的头几分钟内就检测并拦截了超过一万次机器人请求。24 小时内,端点请求量恢复至正常水平。 在服务端,`checkBotId()` 在路由处理器内部运行,并为当前处理的请求返回分类结果。 ``` // app/api/ai-chat/route.ts import { checkBotId } from 'botid/server'; import { NextRequest, NextResponse } from 'next/server'; export async function POST(request: NextRequest) { const verification = await checkBotId(); if (verification.isBot) { return NextResponse.json({ error: 'Access denied' }, { status: 403 }); } // 你现有的 AI SDK 调用路径 } ``` 路由也需要在客户端声明。否则,`checkBotId()` 会失败,因为 BotID 未将挑战头附加到请求上: ``` // instrumentation-client.ts import { initBotId } from 'botid/client/core'; initBotId({ protect: [{ path: '/api/ai-chat', method: 'POST' }], }); ``` 关于 `next.config.ts` 包装器和完整设置,请参阅 BotID 文档(https://vercel.com/docs/botid)。 ## 保护推理本身,而非仅保护访问(https://vercel.com/blog/protecting-against-token-theft#protect-inference,-not-just-access) 推理的成本仍将比它承载的请求高出数个数量级,因此转售仍将有利可图,攻击者也会持续迭代。 要保护你的 AI 端点: - 审计哪些 AI 端点已暴露 - 根据攻击可能性排序:调用者提示控制权越大,目标越容易 - 对每个端点、每次请求进行拦截 **使用 Vercel BotID 保护你的 AI 端点** 阻止机器人耗尽你的 AI 预算:了解如何用几步操作,通过 Vercel BotID 拦截你的端点。阅读指南(https://vercel.com/kb/guide/protect-ai-endpoints-with-vercel-botid)

相似文章

AI团队悄然烧掉推理预算的五种方式

Reddit r/ArtificialInteligence

本文重点介绍了AI团队浪费推理预算的五种常见方式,并提供了提高效率的工程杠杆,针对的是正在扩展AI模型的初创公司。

AI推理遵循着截然不同的规则(9分钟阅读)

TLDR AI

文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。

AI用量限制就像一个黑箱

Reddit r/AI_Agents

本文批评了AI代币用量与定价缺乏透明度,认为Claude和Cursor等提供商故意模糊消耗情况以掩盖成本并促使升级。