关于使用Python电子邮件包读取消息的笔记

Hacker News Top 新闻

摘要

一篇个人博客文章,解释了一种反爬虫浏览器阻止机制,包括给Inoreader、Feedly、Vivaldi和archive.*用户的特别说明。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/25 12:46

# 您使用的浏览器版本过旧 来源:https://utcc.utoronto.ca/~cks/cspace-bad/cspace-old-browser.html ## 您使用的浏览器版本可疑地老旧 您看到此页面,很可能是因为您试图访问我的博客“Wandering Thoughts”(https://utcc.utoronto.ca/~cks/space/blog/)或作为其组成部分的 Wiki 站点 CSpace(https://utcc.utoronto.ca/~cks/space/)时,触发了我的反爬虫防护机制。最常见的原因是您的浏览器版本过于老旧(尤其常见于某些 Chrome 版本)。遗憾的是,截至 2025 年初,大量高流量爬虫(部分用于收集 LLM 训练数据)正在使用各种旧版浏览器的用户代理标识,尤其是 Chrome 的标识。为了减轻“Wandering Thoughts(https://utcc.utoronto.ca/~cks/space/blog/)”的负载,我正在尝试阻止所有这些可疑爬虫,而您正好遇到了这种情况。 如果您使用的是当前最新版本的浏览器,而这是误判,您可以通过我在大学(https://www.cs.toronto.edu/~cks/)的当前联系页面找到我(您应该能从该页面推断出电子邮件地址)。如有可能,请告知您使用的浏览器及相关信息,特别是精确的 User-Agent 字符串。 ## 特别提醒:使用 Inoreader(RSS 阅读器)的用户 我并未阻止 Inoreader 的 Feed 抓取器,也未将其视为过旧版本,它通常能正常抓取我的 Feed。我不清楚 Inoreader 为什么会向您显示此页面。可能的情况是,他们偶尔会使用旧版浏览器的 HTTP User-Agent(或者实际运行旧版浏览器)来抓取 Feed 或页面,并将这次抓取的结果(即本页面)展示给用户,而不是显示他们常规 syndication Feed 抓取代理的结果。这是一个严重的误操作;如今,现代 HTTP 请求的结果部分取决于所使用的 HTTP User-Agent(https://utcc.utoronto.ca/~cks/space/blog/web/HTTPResultsAndUserAgents)。 ## 特别提醒:使用 Feedly(RSS 阅读器)的用户 与 Inoreader 类似,Feedly 偶尔会使用伪造的旧版浏览器 HTTP User-Agent 头来抓取我的 syndication Feed,从而失败,然后它又固执地将这个失败结果作为其常规 Feedly HTTP User-Agent 抓取的实际 Feed 内容。对此我无能为力;您应联系 Feedly 的支持团队(如果能找到的话)。更多详情请参阅我在 Wandering Thoughts 中的这条评论(https://utcc.utoronto.ca/~cks/space/blog/web/FeedReaderErrorsProblem?showcomments#cks-20260215115901)。 ## 特别提醒:使用 Vivaldi 的用户 由于持续存在的攻击,您可能需要更改“用户代理品牌掩盖”设置(https://help.vivaldi.com/desktop/miscellaneous/user-agent-brand-masking/),使您的 Vivaldi 浏览器标识为 Vivaldi,而非 Google Chrome。即使您使用的是最新版本的 Vivaldi,此建议同样适用。 ## 特别提醒:使用 archive.* 的用户 您可能通过 archive.today、archive.ph、archive.is 等站点看到此页面。遗憾的是,archive.* 在归档爬取网页时,其行为与恶意攻击者难以区分。它们使用旧版 Chrome 的 User-Agent 值,从分布广泛且未明确标识为其所有的 IP 地址段进行爬取,并且部分 IP 地址的反向 DNS 记录被伪造,声称是 googlebot IP 地址(这通常是相当恶劣的行为者才会做的事情)。我建议您改用 archive.org,它的归档爬虫行为更规范,可以正常抓取我的博客“Wandering Thoughts(https://utcc.utoronto.ca/~cks/space/blog/)”。 Chris Siebenmann, 2025-02-17

相似文章

在非典型 Shell 环境中使用 GNU Emacs Tramp 系统的注意事项

Lobsters Hottest

作者解释说,他们的博客正在屏蔽来自旧版或可疑浏览器 User-Agent 的请求,以应对大量爬虫请求激增的问题(这很可能是为了收集 LLM 训练数据)。文中为 Vivaldi 和 Inoreader 用户提供了调整设置或报告问题的具体指导。

现代 feed 阅读器(2024)

Lobsters Hottest

作者分析了 RSS 源因抓取和干扰而衰退的问题,认为现代 Feed 阅读器必须整合替代的聚合方式才能保持相关性。

我不再让代理浏览Hacker News

Reddit r/AI_Agents

作者解释了为什么他们不再使用基于浏览器的LLM代理来浏览Hacker News,而是构建了一个插件(MediaUse),直接获取结构化数据,从而节省令牌,并将模型的重点放在分析而非导航上。