Google 的开发大使 Martin Splitt 警告网站所有者要小心似乎来自 Googlebot 的流量。许多冒充 Googlebot 的请求实际上来自第三方抓取工具。
他在 Google 的 SEO Made Easy 系列的最新一集中分享了这一点,强调“并非每个自称是 Googlebot 的人实际上都是 Googlebot”。
为什么这很重要?
虚假爬虫可能会扭曲分析、消耗资源,并使准确评估网站的性能变得困难。
下面介绍了如何区分合法的 Googlebot 流量和虚假的爬虫活动。
Googlebot 验证方法
您可以通过查看整体流量模式而不是异常请求来区分真实的 Googlebot 流量和虚假的爬虫。
真实的 Googlebot 流量往往具有一致的请求频率、时间和行为。
如果您怀疑有虚假的 Googlebot 活动,Splitt 建议使用以下 Google 工具进行验证:
网址检查工具 (Search Console)
在呈现的 HTML 中查找特定内容可确认 Googlebot 可以成功访问该网页。
提供在线测试能力,以验证当前访问状态。
富媒体搜索结果测试
用作 Googlebot 访问权限的替代验证方法
显示 Googlebot 如何呈现网页
即使没有 Search Console 访问权限也可以使用
Crawl Stats 报告
显示详细的服务器响应数据,特别是来自已验证的 Googlebot 请求的数据
帮助识别合法 Googlebot 行为的模式
有一个关键限制值得注意:这些工具会验证真实的 Googlebot 所看到和执行的操作,但它们不会直接识别服务器日志中的冒充者。
要全面防范假冒 Googlebot,您需要:
将服务器日志与 Google 的官方 IP 范围进行比较
实施反向 DNS 查找验证
使用上述工具建立基本的合法 Googlebot 行为
监视 Server 响应
Splitt 还强调了监控服务器对爬虫请求的响应的重要性,特别是:
500 系列错误
提取错误
超时
DNS 问题
这些问题会显著影响托管数百万个页面的大型网站的抓取效率和搜索可见性。
Splitt 说道:
“Pay attention to the responses your server gave to Googlebot, especially a high number of 500 responses, fetch errors, timeouts, DNS problems, and other things.”
他指出,虽然有些错误是暂时的,但持续存在的问题“可能需要进一步调查”。
Splitt 建议使用服务器日志分析来做出更复杂的诊断,尽管他承认这“不是一件基本的事情”。
然而,他强调了它的价值,并指出“查看您的 Web 服务器日志......是更好地了解服务器上发生的情况的有效方法。
潜在影响
除了安全性之外,虚假 Googlebot 流量还会影响网站性能和 SEO 工作。
Splitt 强调,浏览器中的网站可访问性并不能保证 Googlebot 可以访问,并列举了各种潜在障碍,包括:
Robots.txt 限制
防火墙配置
爬虫程序保护系统
网络路由问题
最后
虚假的 Googlebot 流量可能很烦人,但 Splitt 表示,你不应该太担心极少数情况。
假设虚假爬网程序活动成为问题或消耗了过多的服务器资源。在这种情况下,您可以采取限制请求速率、阻止特定 IP 地址或使用更好的机器人检测方法等步骤。