抓取预算是搜索引擎希望抓取网站页面的速度和数量。它与爬虫希望在网站上使用的资源量以及服务器支持的爬行量有关。
抓取越多并不意味着排名越好,但如果你的网页没有被抓取和索引,就根本不会有排名。
大多数网站都不需要担心抓取预算,但在某些情况下,您可能需要考虑一下。让我们来看看其中的几种情况。
何时需要关注爬行预算?
您通常不必担心热门页面的抓取预算。您需要关注的是较新的页面、链接不佳的页面或不常被抓取的页面。
对于较新的网站,尤其是页面较多的网站,抓取预算可能是个问题。您的服务器可能可以支持更多的抓取,但由于您的网站是新网站,可能还不是很受欢迎,搜索引擎可能不太愿意抓取您的网站。您希望 Google 抓取并索引您的网页,但 Google 并不知道是否值得索引您的网页,因此可能不会像您期望的那样抓取您的网页。
对于拥有数百万页面或频繁更新的大型网站来说,抓取预算也是一个问题。一般来说,如果您有很多页面没有像您希望的那样频繁抓取或更新,那么您可能需要考虑加快抓取速度。我们将在本文后面讨论如何做到这一点。
如何检查抓取状态
如果你想了解 Google 抓取活动的总体情况以及他们发现的任何问题,最好使用 Google Search Console 中的抓取统计报告。
这里提供的报告可帮助您识别抓取行为的变化、抓取问题,并为您提供有关 Google 如何抓取网站的更多信息。
您需要查看标记抓取的状态,如图所示:
页面最后一次被抓取的时间也有一个时间戳。
如果您想查看所有爬虫和用户的点击情况,就需要访问日志文件。根据您的服务器环境,您可以通过 Awstats 和 Webalizer 等工具查看。下面是您在使用 cPanel 的共享主机上看到的内容。这些工具会在日志文件中显示一些汇总数据。
对于更复杂的设置,您必须访问和存储原始日志文件中的数据,这些数据可能来自多个来源。对于大型项目,您可能还需要专门的工具,如 ELK(elasticsearch、logstash、kibana),它允许您存储、处理和可视化日志文件。此外还有 Splunk 等日志分析工具。
哪些内容可计入爬行预算?
所有 URL 和请求均计入抓取预算。这包括备用 URL(如 AMP 或 m. 页面)、hreflang、CSS 和 JavaScript(包括 XHR 请求)。
这些 URL 可以通过抓取和解析页面、各种其他来源(包括网站地图、RSS、Google Search Console 中的索引)或使用索引 API 找到。
此外,还有多个 Google 爬虫共享抓取预算。您可以在 GSC 的抓取统计报告中找到抓取您网站的各种 Google 爬虫的列表。
谷歌调整抓取方式
每个网站都有不同的抓取预算,这是由几个不同的因素决定的。
需求扫描
抓取需求是指 Google 希望抓取网站的程度。更受欢迎的页面和变化较大的页面会被抓取更多。
热门页面或链接较多的页面通常会优先于其他页面。请记住,谷歌必须以某种方式首先抓取您的页面,而链接是确定网站上哪些页面更受欢迎的简单方法。不仅仅是你的网站,Google 还必须找出如何优先抓取互联网上所有网站的页面。
您可以使用站点浏览器中的 "最佳链接 "报告,查看哪些页面可能被抓取的频率更高。它还会显示 Ahrefs 上次抓取您网页的时间。
还有一个古老的概念。如果 Google 发现页面没有变化,他们就会减少抓取页面的频率。例如,如果他们抓取一个页面一天后没有发现任何变化,他们可能会等待三天再抓取,接下来是 10 天、30 天、100 天,依此类推。他们并没有规定每次抓取之间的实际等待时间,但随着时间的推移,等待时间会越来越短。不过,如果 Google 发现整个网站发生了巨大的变化或改变,他们通常会提高抓取速度。
爬行速度限制
抓取率限制是指网站可支持的抓取量。在出现服务器稳定性问题(如速度变慢或出错)之前,网站的抓取速度可以达到一定程度。如果爬虫开始发现这些问题,它们就会停止抓取,以免损坏网站。
Google 会根据网站的抓取健康状况进行调整。如果抓取次数较高时网站正常,限制就会增加。如果网站存在问题,那么 Google 就会放慢抓取速度。
我希望谷歌能抓取得更快一些
您可以做一些事情来确保您的网站可以支持额外的抓取,并增加网站的抓取需求。让我们来看看其中的一些选择。
加速服务器/增加资源
谷歌抓取网页的方式基本上是下载资源,然后在一端进行处理。这与用户感知的页面速度并不完全相同。影响抓取预算的是谷歌连接和下载资源的速度,这与服务器和资源有较大关系。
更多外部和内部链接
请记住,抓取需求通常基于知名度或链接。您可以通过增加反向链接和/或内部链接的数量来增加预算。由于网站由您控制,因此内部链接更为容易。您可以在 Site Audit 中的 Link Opportunities 报告中找到内部链接机会,该报告还包括解释其工作原理的教程。
修复损坏和重定向链接
在网站上保持链接到已损坏或重定向页面的活动状态,对抓取预算的影响很小。通常情况下,这里链接的页面优先级较低,因为它们可能有一段时间没有更改了,但清理任何问题通常都有利于维护网站,也会对抓取预算有一点帮助。
您可以在网站审计的内部页面报告中轻松找到网站上的断开 (4xx) 和重定向 (3xx) 链接。
关于网站地图中的断开或重定向链接,请检查所有问题报告中的 "网站地图中有 3XX 个重定向 "和 "网站地图中有 4XX 个页面 "问题。
尽可能使用 GET 而不是 POST
这个问题有点技术性,因为它涉及 HTTP 请求方法。能使用 GET 请求的地方就不要使用 POST 请求。这个问题基本上就是 GET 和 POST 的区别。POST 请求没有缓存,因此会影响抓取预算,但 GET 请求可以缓存。
使用索引 API
如果您需要更快地抓取页面,请检查您是否有资格使用 Google 的索引 API。目前,这只适用于少数用例。例如,招聘信息或实时视频等。
必应也有索引 API,每个人都可以使用。
哪些因素不会导致爬行预算变化
人们有时会尝试一些对爬行预算没有实际帮助的事情。
对网站进行小改动。对页面做一些小改动,如更新日期、空格或标点符号,希望能更频繁地抓取页面。谷歌很擅长判断改动是否重大,因此这些小改动不太可能对抓取产生任何影响。
在 Robots .txt 中使用抓取延迟指令。该指令会降低许多爬虫的爬行速度。但 Google 爬虫不使用它,所以不会产生影响。但 Ahrefs 遵循此指令,因此如果您需要降低我们的爬行速度,可以在 robots .txt 文件中添加爬行延迟。
删除第三方脚本。第三方脚本不计入抓取预算,因此删除它们无济于事。
nofollow。过去,nofollow 链接不占用抓取预算。但现在,nofollow 被视为一种提示,因此 Google 可能会选择抓取这些链接。
我希望谷歌的抓取速度慢一点
有几种让 Google 抓取速度变慢的好方法。从技术上讲,你还可以做一些其他调整,比如放慢网站速度,但我不建议这样做。
调整虽然缓慢,但可以保证
谷歌为我们提供了一种限制抓取速度的方法,那就是谷歌搜索控制台中的速度限制器。您可以使用该工具来降低抓取速度,但最多需要两天时间才能生效。
快速调整,但有风险
如果需要更直接的解决方案,可以使用服务器返回代码来调整 Google 抓取速度。如果在页面上向 Google 爬虫返回 "503 服务不可用 "或 "429 请求过多 "等状态,它们的抓取速度就会开始减慢,或者暂时停止抓取。不过,你可能不希望这种状态持续很长时间,因为 Google 有可能会开始从索引中删除网页。
最后
再说一遍,爬行预算并不是大多数人需要担心的问题。如果你确实有顾虑,希望本指南对你有所帮助。
我通常只在出现页面未被抓取和索引的问题时,或者在 Google Search Console 的抓取统计报告中看到让我担心的内容时,才会查看它。