我的浏览器代理会话中有40%悄然失败,问题不在LLM
摘要
一位开发者发现,40%的浏览器代理会话因浏览器指纹识别和自动化检测而悄然失败,而非LLM推理问题。一个名为Leakish的开源工具发现了这些问题。
我构建了一个Puppeteer代理,它通过了所有的推理评估。在生产环境中,40%的会话返回了降级的结果,且没有报错。LLM对受污染输入的推理是正确的。浏览器成为了盲区。我用一个开源扫描器验证了这一点,它的完整代码库在GitHub上,指纹检查在本地执行,所以在将其指向我的代理会话之前,我信任它的输出。这个工具叫做Leakish。我的会话在Canvas渲染、WebRTC以及我从未想过要监控的自动化检测方面被标记了。我仍然没有一个干净的解决方案来使浏览器层对这些检测系统不可见。
相似文章
通过行为识别:利用UI痕迹对LLM浏览器代理进行指纹识别
本文证明,网站可以通过分析浏览代理的行为模式和时序数据,识别其背后的大语言模型,在14个前沿LLM上实现了高达96%的F1分数。本文正式定义了这一攻击面,并表明随机时序延迟不足以阻止识别。
不使用智能体循环,将浏览器智能体成本降低50倍。先规划后执行 + 数据。
描述了一种通过单次规划调用后确定性执行来降低浏览器智能体任务中LLM成本的技术,与标准智能体循环相比,实现了50倍的成本降低。
Agent Execution Tax:浏览器代理基准测试的新衡量指标
Fireworks AI 和 Notte 在运行了四个 LLM 的 720 个浏览器代理任务后,引入了 'Agent Execution Tax' 指标,发现执行可靠性——而非智能——是智能体 AI 的主要瓶颈,其中一个模型在格式错误的 JSON 上浪费了 22.9% 的推理调用。
“浏览器代理成本高昂且仍在成熟”这种表述可能忽略了架构方面的问题
讨论了当前使用无头Chrome加AI层的浏览器代理的架构问题,并介绍了Opera Neon的命令行界面作为替代方案,将AI集成到浏览器中,从而降低令牌开销并提高理解能力。
领域伪装注入攻击规避多智能体LLM系统检测
本文识别出一类新的注入攻击,其载荷模仿领域语言以规避LLM注入检测器,实验显示检测率急剧下降(例如,在Llama 3.1 8B上从93.8%降至9.7%)。该漏洞具有系统性,且延伸至诸如Llama Guard 3等专用安全分类器,后者对伪装载荷的检测率为零。