我们正在超越爬虫和基础网页自动化

Reddit r/singularity 新闻

摘要

对网页自动化快速演变的反思,强调像 Skyvern 这样的模型如何结合计算机视觉和 LLM 来克服传统爬虫的挑战。

浏览器领域的发展速度真是太疯狂了(从20到25年前到现在,真是一段漫长的旅程,哈哈)。还记得以前只要网站有任何动态加载,基本的网页爬取都很麻烦,但现在我们已经达到了模型可以像人类一样浏览网页的程度。昨天我在 GitHub 上翻了翻一些开源项目,看到了 Skyvern 的仓库,很酷的是他们如何将计算机视觉与 LLM 结合起来解决“选择器失效”的问题。你们觉得我们最终会有一个单一的“网络代理”完全取代浏览器,还是我们始终需要某种专门的工具来帮助我们跨越 AI 与传统网站之间的鸿沟?
查看原文

相似文章

D4Vinci/Scrapling

GitHub Trending (daily)

Scrapling 是一个现代、自适应的 Python 网页抓取库,能够处理反爬虫措施,并提供高级选择、获取和爬虫功能。

@heynavtoor:虚拟助手行业已经落幕。苏黎世联邦理工学院的两名学生仅用四天就推出了一个最小可行产品(MVP)。如今,AI 控制了他们的 C…

X AI KOLs Timeline

Browser-Use 是由苏黎世联邦理工学院(ETH Zurich)学生开发的一个开源框架,旨在通过人工智能实现浏览器自动化。它提供了一种免费且具备自愈能力的解决方案,能够模拟人类交互,而无需依赖易碎的 HTML 解析技术,从而对传统的 RPA(机器人流程自动化)行业构成挑战。