Google将资源托管在不同的主机名上以节省抓取预算

Google 搜索中心推出了一个名为“Crawling December”的新系列，以深入了解 Googlebot 如何抓取网页并将其编入索引。

Google 将在本月每周发布一篇新文章，探讨抓取过程的各个方面，这些方面不经常被讨论，但可以显着影响网站抓取。

本系列的第一篇文章介绍了抓取的基础知识，并阐明了有关 Googlebot 如何处理网页资源和管理抓取预算的基本但鲜为人知的细节。

爬网基础知识

由于先进的 JavaScript 和 CSS，今天的网站很复杂，这使得它们比旧的纯 HTML 页面更难抓取。Googlebot 的工作方式与网络浏览器类似，但运行时间安排不同。

当 Googlebot 访问网页时，它首先会从主网址下载 HTML，该网址可能会链接到 JavaScript、CSS、图片和视频。然后，Google 的 Web Rendering Service (WRS) 使用 Googlebot 下载这些资源，以创建最终的网页视图。

以下是按顺序排列的步骤：

初始 HTML 下载

由 Web 呈现服务处理

资源获取

最终页面构造

抓取预算管理

抓取额外的资源可以减少主网站的抓取预算。为了帮助解决这个问题，谷歌表示“WRS 会尝试缓存它呈现的页面中使用的每个资源(JavaScript 和 CSS)。

请务必注意，WRS 缓存最长持续 30 天，并且不受开发人员设置的 HTTP 缓存规则的影响。

这种缓存策略有助于节省网站的抓取预算。

建议

这篇文章为网站所有者提供了有关如何优化其抓取预算的提示：

减少资源使用：使用更少的资源来创造良好的用户体验。这有助于在呈现页面时节省抓取预算。

单独托管资源：将资源放在不同的主机名上，例如 CDN 或子域。这有助于将抓取预算负担从您的主站点转移出去。

明智地使用 cache-busting 参数：小心使用 cache-busting 参数。更改资源 URL 可能会使 Google 重新检查它们，即使内容相同也是如此。这可能会浪费您的抓取预算。

此外，Google 警告说，使用 robots.txt 阻止资源爬取可能存在风险。

如果 Google 无法访问渲染所需的资源，则它可能无法获取页面内容并对其进行正确排名。

监控工具

Search Central 团队表示，查看 Googlebot 正在抓取哪些资源的最佳方法是检查网站的原始访问日志。

您可以使用 Google 开发人员文档中发布的范围，通过其 IP 地址来识别 Googlebot。

为什么这很重要

这篇文章阐明了影响 Google 如何查找和处理您网站内容的三个关键点：

资源管理直接影响您的抓取预算，因此在 CDN 上托管脚本和样式有助于保留预算。

无论您的 HTTP 缓存设置如何，Google 都会将资源缓存 30 天，这有助于节省您的抓取预算。

阻止 robots.txt 中的关键资源可能会适得其反，因为 Google 无法正确呈现您的页面。

了解这些机制有助于 SEO 和开发人员在资源托管和可访问性方面做出更好的决策，这些选择直接影响 Google 抓取和索引其网站的能力。

相关阅读