您的位置 首页 谷歌优化

Google将资源托管在不同的主机名上以节省抓取预算

Google 搜索中心推出了一个名为“Crawling December”的新系列,以深入了解 Googlebot 如何抓取网页并将其编入索引。

Google 将在本月每周发布一篇新文章,探讨抓取过程的各个方面,这些方面不经常被讨论,但可以显着影响网站抓取。

本系列的第一篇文章介绍了抓取的基础知识,并阐明了有关 Googlebot 如何处理网页资源和管理抓取预算的基本但鲜为人知的细节。

Google将资源托管在不同的主机名上以节省抓取预算

爬网基础知识

由于先进的 JavaScript 和 CSS,今天的网站很复杂,这使得它们比旧的纯 HTML 页面更难抓取。Googlebot 的工作方式与网络浏览器类似,但运行时间安排不同。

当 Googlebot 访问网页时,它首先会从主网址下载 HTML,该网址可能会链接到 JavaScript、CSS、图片和视频。然后,Google 的 Web Rendering Service (WRS) 使用 Googlebot 下载这些资源,以创建最终的网页视图。

以下是按顺序排列的步骤:

初始 HTML 下载

由 Web 呈现服务处理

资源获取

最终页面构造

抓取预算管理

抓取额外的资源可以减少主网站的抓取预算。为了帮助解决这个问题,谷歌表示“WRS 会尝试缓存它呈现的页面中使用的每个资源(JavaScript 和 CSS)。

请务必注意,WRS 缓存最长持续 30 天,并且不受开发人员设置的 HTTP 缓存规则的影响。

这种缓存策略有助于节省网站的抓取预算。

建议

这篇文章为网站所有者提供了有关如何优化其抓取预算的提示:

减少资源使用:使用更少的资源来创造良好的用户体验。这有助于在呈现页面时节省抓取预算。

单独托管资源:将资源放在不同的主机名上,例如 CDN 或子域。这有助于将抓取预算负担从您的主站点转移出去。

明智地使用 cache-busting 参数:小心使用 cache-busting 参数。更改资源 URL 可能会使 Google 重新检查它们,即使内容相同也是如此。这可能会浪费您的抓取预算。

此外,Google 警告说,使用 robots.txt 阻止资源爬取可能存在风险。

如果 Google 无法访问渲染所需的资源,则它可能无法获取页面内容并对其进行正确排名。

监控工具

Search Central 团队表示,查看 Googlebot 正在抓取哪些资源的最佳方法是检查网站的原始访问日志。

您可以使用 Google 开发人员文档中发布的范围,通过其 IP 地址来识别 Googlebot。

为什么这很重要

这篇文章阐明了影响 Google 如何查找和处理您网站内容的三个关键点:

资源管理直接影响您的抓取预算,因此在 CDN 上托管脚本和样式有助于保留预算。

无论您的 HTTP 缓存设置如何,Google 都会将资源缓存 30 天,这有助于节省您的抓取预算。

阻止 robots.txt 中的关键资源可能会适得其反,因为 Google 无法正确呈现您的页面。

了解这些机制有助于 SEO 和开发人员在资源托管和可访问性方面做出更好的决策,这些选择直接影响 Google 抓取和索引其网站的能力。

免责声明:本站不对文章内容负责,仅供读者参考,版权归原作者所有。如有影响到您的合法权益(内容、图片等),请联系本站删除。

相关阅读