Google 搜索中心推出了一个名为“Crawling December”的新系列,以深入了解 Googlebot 如何抓取网页并将其编入索引。
Google 将在本月每周发布一篇新文章,探讨抓取过程的各个方面,这些方面不经常被讨论,但可以显着影响网站抓取。
本系列的第一篇文章介绍了抓取的基础知识,并阐明了有关 Googlebot 如何处理网页资源和管理抓取预算的基本但鲜为人知的细节。
爬网基础知识
由于先进的 JavaScript 和 CSS,今天的网站很复杂,这使得它们比旧的纯 HTML 页面更难抓取。Googlebot 的工作方式与网络浏览器类似,但运行时间安排不同。
当 Googlebot 访问网页时,它首先会从主网址下载 HTML,该网址可能会链接到 JavaScript、CSS、图片和视频。然后,Google 的 Web Rendering Service (WRS) 使用 Googlebot 下载这些资源,以创建最终的网页视图。
以下是按顺序排列的步骤:
初始 HTML 下载
由 Web 呈现服务处理
资源获取
最终页面构造
抓取预算管理
抓取额外的资源可以减少主网站的抓取预算。为了帮助解决这个问题,谷歌表示“WRS 会尝试缓存它呈现的页面中使用的每个资源(JavaScript 和 CSS)。
请务必注意,WRS 缓存最长持续 30 天,并且不受开发人员设置的 HTTP 缓存规则的影响。
这种缓存策略有助于节省网站的抓取预算。
建议
这篇文章为网站所有者提供了有关如何优化其抓取预算的提示:
减少资源使用:使用更少的资源来创造良好的用户体验。这有助于在呈现页面时节省抓取预算。
单独托管资源:将资源放在不同的主机名上,例如 CDN 或子域。这有助于将抓取预算负担从您的主站点转移出去。
明智地使用 cache-busting 参数:小心使用 cache-busting 参数。更改资源 URL 可能会使 Google 重新检查它们,即使内容相同也是如此。这可能会浪费您的抓取预算。
此外,Google 警告说,使用 robots.txt 阻止资源爬取可能存在风险。
如果 Google 无法访问渲染所需的资源,则它可能无法获取页面内容并对其进行正确排名。
监控工具
Search Central 团队表示,查看 Googlebot 正在抓取哪些资源的最佳方法是检查网站的原始访问日志。
您可以使用 Google 开发人员文档中发布的范围,通过其 IP 地址来识别 Googlebot。
为什么这很重要
这篇文章阐明了影响 Google 如何查找和处理您网站内容的三个关键点:
资源管理直接影响您的抓取预算,因此在 CDN 上托管脚本和样式有助于保留预算。
无论您的 HTTP 缓存设置如何,Google 都会将资源缓存 30 天,这有助于节省您的抓取预算。
阻止 robots.txt 中的关键资源可能会适得其反,因为 Google 无法正确呈现您的页面。
了解这些机制有助于 SEO 和开发人员在资源托管和可访问性方面做出更好的决策,这些选择直接影响 Google 抓取和索引其网站的能力。