通过行为识别:利用UI痕迹对LLM浏览器代理进行指纹识别

Hugging Face Daily Papers 论文

摘要

本文证明,网站可以通过分析浏览代理的行为模式和时序数据,识别其背后的大语言模型,在14个前沿LLM上实现了高达96%的F1分数。本文正式定义了这一攻击面,并表明随机时序延迟不足以阻止识别。

随着基于LLM的代理越来越多地代表用户浏览网页,一个自然的问题出现了:网站能否被动识别出代理背后是哪个底层模型?这将构成重大的安全风险,使得针对已知模型漏洞的定向攻击成为可能。在涵盖信息检索和购物任务的14个前沿LLM和四个网页环境中,我们证明,通过被动JavaScript追踪器捕获的代理动作和交互时序,足以识别底层模型,F1分数高达96%。我们通过展示基于代理动作训练的分类器可跨模型规模和系列进行泛化,正式定义了这一攻击面。我们进一步表明,强大的分类器可以通过少量交互轨迹进行训练,并且代理身份可以在一个回合早期被推断出来。在动作之间注入随机时序延迟会显著降低分类器性能,但并不能提供稳健的保护:针对延迟轨迹重新训练的分类器在很大程度上恢复了性能。我们发布了我们的测试工具和标注的代理轨迹数据集:[here](https://github.com/KabakaWilliam/known_actions)。
查看原文
查看缓存全文

缓存时间: 2026/05/18 18:27

论文页面 - 以其行为识之:通过UI轨迹为LLM浏览器代理打指纹

来源:https://huggingface.co/papers/2605.14786

摘要

网站跟踪系统能够通过行为模式与时序数据,以高准确率识别驱动网页浏览代理的底层大语言模型。

随着基于LLM的代理 (https://huggingface.co/papers?q=LLM-based%20agents)越来越多地代表用户浏览网页,一个自然的问题随之出现:网站能否被动识别出驱动代理的是哪个底层模型?若能,这将构成重大的安全风险,使其能够针对已知的模型漏洞 (https://huggingface.co/papers?q=model%20vulnerabilities)发起定向攻击。通过对14个前沿LLM以及涵盖信息检索和购物任务的四种网页环境进行实验,我们证明:通过被动JavaScript跟踪器 (https://huggingface.co/papers?q=passive%20JavaScript%20tracker)捕获的代理操作与交互时序 (https://huggingface.co/papers?q=interaction%20timings)足以识别底层模型,F1值最高可达96%。我们形式化了这一攻击面,展示出基于代理操作 (https://huggingface.co/papers?q=agent%20actions)训练的分类器能够跨模型规模和家族进行泛化。我们还进一步证明,仅凭少量交互轨迹即可训练出强分类器,并且在一个回合的早期就能推断出代理身份。在操作之间注入随机化的时序延迟 (https://huggingface.co/papers?q=randomised%20timing%20delays)会显著降低分类器性能,但并不能提供稳健保护:在延迟轨迹上重新训练的分类器能基本恢复性能。我们在此 (https://github.com/KabakaWilliam/known_actions)发布我们的测试框架和一个带标注的代理轨迹语料库。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14786)查看 PDF (https://arxiv.org/pdf/2605.14786)GitHub0 (https://github.com/KabakaWilliam/known_actions)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14786)

在你的代理中获取此论文:

hf papers read 2605\.14786

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.14786 以此页面链接。

引用本文的数据集0

无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.14786 以此页面链接。

引用本文的 Space0

无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2605.14786 以此页面链接。

包含本文的收藏0

无收藏包含本文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以此页面链接。

相似文章

领域伪装注入攻击规避多智能体LLM系统检测

Hacker News Top

本文识别出一类新的注入攻击,其载荷模仿领域语言以规避LLM注入检测器,实验显示检测率急剧下降(例如,在Llama 3.1 8B上从93.8%降至9.7%)。该漏洞具有系统性,且延伸至诸如Llama Guard 3等专用安全分类器,后者对伪装载荷的检测率为零。

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Hugging Face Daily Papers

# Paper page - PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors Source: [https://huggingface.co/papers/2605.06455](https://huggingface.co/papers/2605.06455) ## Abstract PrefixGuard enables effective online monitoring of LLM agents through trace analysis and prefix\-based risk scoring, demonstrating strong performance across multiple benchmark tasks while providing diagnostic insights for alert reliability\. Large language model \(LLM\) agents now execute long, tool\-using ta

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。