您的位置 首页 谷歌优化

什么是抓取预算(如何让Google抓取速度更快)

什么是抓取预算(如何让Google抓取速度更快)

抓取预算是搜索引擎想要在您的网站上抓取的速度和页面数量。它受爬网程序要在您的网站上使用的资源数量以及服务器支持的爬网数量的影响。更多的抓取并不意味着你的排名会更好,但如果你的页面没有被抓取和索引,它们根本就不会排名。大多数网站不需要担心抓取预算,但在少数情况下您可能需要查看一下。让我们来看看其中的一些案例。

1. 您何时应该担心搜寻预算?

您通常不必担心热门页面上的抓取预算。通常是较新的页面、没有很好链接的页面,或者不经常抓取的页面变化不大。对于较新的网站,尤其是那些页面较多的网站,抓取预算可能是一个问题。您的服务器可能能够支持更多的爬网,但是由于您的网站是新的,并且可能还不太流行,因此搜索引擎可能不想太多地对您的网站进行爬网。

这主要是期望的脱节。您希望对您的网页进行抓取和编入索引,但 Google 不知道是否值得将您的网页编入索引,并且可能不想抓取您希望的网页数量。对于拥有数百万个页面或经常更新的网站的大型网站,抓取预算也可能是一个问题。通常,如果您有很多页面没有按需进行爬网或更新,则可能需要考虑加快爬网速度。我们将在本文后面讨论如何做到这一点。

2. 如何查看爬虫活动

如果您想查看 Google 抓取活动的概述以及他们发现的任何问题,最好的查看位置是 Google Search Console 中的抓取统计报告。如果您想查看来自所有机器人和用户的点击,您需要访问您的日志文件。根据托管和设置,您可能可以访问 Awstats 和 Webalizer 等工具,如此处在具有 cPanel 的共享主机上所见。这些工具会显示日志文件中的一些汇总数据。

或更复杂的设置,您必须访问和存储原始日志文件中的数据,可能来自多个来源。对于大型项目,您可能还需要专门的工具,例如 ELK(elasticsearch、logstash、kibana)堆栈,它允许存储、处理和可视化日志文件。还有Splunk等日志分析工具。

3. 什么会计入抓取预算?

所有 URL 和请求都计入您的抓取预算。这包括备用 URL,如 AMP 或 m-dot 页面、hreflang、CSS 和 JavaScript,包括 XHR 请求。这些 URL 可以通过抓取和解析页面找到,也可以从各种其他来源(包括站点地图、RSS 提要、提交 URL 以在 Google Search Console 中编入索引)或使用索引API找到。还有多个 Googlebot 共享抓取预算。您可以在 GSC 的抓取统计报告中找到抓取您网站的各种 Googlebot 的列表。

A)Google调整抓取方式

每个网站都有不同的抓取预算,由几个不同的输入组成。

B) 爬取需求

抓取需求就是 Google 想要在您的网站上抓取多少。更受欢迎的页面和经历重大变化的页面将被抓取更多。热门页面或指向它们的链接较多的页面通常将比其他页面具有优先权。请记住,Google 必须以某种方式优先抓取您的网页,而链接是一种确定您网站上哪些网页更受欢迎的简单方法。不仅仅是你的网站,谷歌必须弄清楚如何优先考虑互联网上所有网站上的所有页面。

您可以使用 Site Explorer 中的 Best by links 报告来指示哪些页面可能被更频繁地抓取。它还显示 Ahrefs 上次抓取您的页面的时间。还有一个过时的概念。如果谷歌发现页面没有变化,他们就会降低抓取页面的频率。例如,如果他们抓取一个页面,一天后没有看到任何变化,他们可能会等待三天再抓取,下一次十天,30 天,100 天等。他们在两次抓取之间没有实际设定的等待时间,但随着时间的推移,它会变得越来越少。但是,如果 Google 看到整个网站发生了巨大变化或网站发生了重大变化,他们通常会提高抓取速度,至少是暂时的。

C) 抓取速度限制

抓取速度限制是您的网站可以支持的抓取量。在出现服务器稳定性问题(如速度减慢或错误)之前,网站可以进行一定量的抓取。如果大多数爬虫开始看到这些问题,它们就会停止爬行,以免损害站点。Google 会根据网站的抓取健康状况进行调整。如果该站点在爬行次数更多时正常,则限制将增加。如果网站有问题,那么谷歌会减慢他们的抓取速度。

4. 如何让 Google 抓取速度更快?

您可以采取一些措施来确保您的网站能够支持额外的抓取并增加您网站的抓取需求。让我们看看其中的一些选项。

A) 加速您的服务器/增加资源

Google 抓取页面的方式基本上是下载资源,然后在它们的一端进行处理。用户感知的页面速度并不完全相同。影响抓取预算的是谷歌连接和下载资源的速度,这更多地与服务器和资源有关。

B) 更多链接,外部和内部

请记住,抓取需求通常基于流行度或链接。您可以通过增加外部链接和/或内部链接的数量来增加预算。由于您控制网站,因此内部链接更容易。您可以在“网站审核”的“链接机会”报告中找到建议的内部链接,该报告还包括一个说明其工作原理的教程。

C) 修复损坏和重定向的链接

保持站点上损坏或重定向页面的链接处于活动状态将对抓取预算产生很小的影响。通常,此处链接的页面的优先级相当低,因为它们可能已经有一段时间没有更改了,但清理任何问题通常对网站维护有益,并且会稍微帮助您的抓取预算。

您可以在站点审核的内部页面报告中轻松找到站点上的损坏 (4xx) 和重定向 (3xx) 链接。对于站点地图中损坏或重定向的链接,请检查“站点地图中的 3XX 重定向”和“站点地图中的 4XX 页面”问题的所有问题报告。

D) 尽可能使用 GET 而不是 POST

这个有点技术性,因为它涉及 HTTP 请求方法。不要在 GET 请求有效的地方使用 POST 请求。它基本上是 GET(拉)与 POST(推)。POST请求不会被缓存,因此会影响抓取预算,但是GET请求可以被缓存。

E) 使用索引 API

如果您需要更快地抓取页面,请检查您是否有资格使用 Google 的索引 API。目前,这仅适用于少数用例,例如职位发布或实时视频。Bing还提供了所有人均可使用的Indexing API。

5. 什么改动是无效的?

人们有时会尝试一些对您的抓取预算实际上无济于事的事情。

网站的小改动。对页面进行小的更改,例如更新日期、空格或标点符号,以希望更频繁地抓取页面。Google非常擅长确定更改是否重要,因此这些小的更改不太可能对抓取产生任何影响。

robots.txt中的抓取延迟指令。该指令将减慢许多机器人的速度。但是 Googlebot 不使用它,因此不会产生影响。

删除第三方脚本。第三方脚本不计入您的抓取预算,因此删除它们无济于事。

Nofollow。好吧,这个有问题。过去,nofollow链接不会使用抓取预算。但是,nofollow 现在被视为提示,因此 Google 可能会选择抓取这些链接。

6. 如何让Google 抓取速度变慢?

有几个好方法可以让 Google 抓取速度变慢。从技术上讲,您还可以进行一些其他调整,例如降低网站速度,但我不推荐这些方法。

调整缓慢,但有保证

Google 提供给我们的主要控制是让我们爬得更慢,这是 Google Search Console 中的速率限制器。您可以使用该工具降低抓取速度,但最多可能需要两天的时间才能生效。

快速调整,但有风险

如果您需要更直接的解决方案,则可以利用Google与网站运行状况相关的抓取速度调整。如果您在页面上向 Googlebot 提供“503 服务不可用”或“429 请求过多”状态代码,它们的抓取速度将开始变慢或可能会暂时停止抓取。但是,您不希望这样做超过几天,否则他们可能会开始从索引中删除页面。

写在最后

再次重申,抓取预算不是大多数人需要担心的。 如果您确实有疑虑,我希望本指南对您有所帮助。我通常只在页面没有被爬取和建立索引的问题时才进行调查,我需要解释为什么不应该担心它,或者在Google Search Console的爬网统计报告中碰巧看到与我有关的问题。

免责声明:本站不对文章内容负责,仅供读者参考,版权归原作者所有。如有影响到您的合法权益(内容、图片等),请联系本站删除。

相关阅读