浏览器会话在大约20个并发时开始失败。没有人提醒过你这一点
摘要
在生产环境中使用 Node.js 运行 Playwright 爬虫时,大约20个并发浏览器会话开始失败,导致内存飙升和崩溃。开发者指出文档中没有关于此限制的警告。
29M后端开发者。在生产环境的Node.js上使用Playwright爬虫,之前一切正常,直到18个并发时出现超时。内存飙升,WebSocket掉线,队列死掉。扔了32GB内存进去,好像能解决问题似的。项目经理觉得我在拖延,说实话我也不怪他疑惑——文档全是关于水平扩展、简易部署之类的。从没说你会在大约20个并发时崩溃??自Chrome 121以来,staging环境出现OOM杀死进程。降级的PR已经开了两周,没人愿意合并。今天已经重启了四次worker。到底有谁能在Node无头模式下跑超过15-20个并发而不需要手动管理每个会话?你的失败模式是什么,超时还是完全崩溃?
相似文章
@browser_use:不到1秒启动25个浏览器,尽情享受
Browser Use 推出全新浏览器基础设施服务,具备亚秒级冷启动、更低成本(每小时0.02美元)以及无限扩展能力,现已面向开发者上线。
过时的HTML和无头浏览器总让我被屏蔽,于是我转而重放实际请求
作者分享了从使用无头浏览器切换到重放直接请求来抓取网站的经验,显著降低了被屏蔽率和资源消耗。
我的浏览器代理会话中有40%悄然失败,问题不在LLM
一位开发者发现,40%的浏览器代理会话因浏览器指纹识别和自动化检测而悄然失败,而非LLM推理问题。一个名为Leakish的开源工具发现了这些问题。
@larsencc: https://x.com/larsencc/status/2053862900289470765
本文详解了开源 browser-use 库的生产架构,阐述了如何利用 AWS Lambda、SQS 和 S3 扩展浏览器代理,实现状态管理与重试机制。
构建了一个让AI代理浏览网页的Playwright版本
这是Playwright的一个分支,每次会话生成唯一的浏览器指纹,使AI代理能够在网上不被察觉地浏览。该项目完全开源,基于MIT许可证。