Googlebot如何抓取和索引网页的?

Googlebot 是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。Googlebot 拥有移动和桌面抓取工具，以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务，每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。

Googlebot 是常青树，这意味着它可以像用户在最新的 Chrome 浏览器中一样看待网站。Googlebot 在数千台机器上运行。他们决定在网站上抓取的速度和内容。但它们会减慢爬行速度，以免网站不堪重负。让我们看看他们构建网络索引的过程。

文章目录

谷歌过去曾分享过其管道的几个版本。以下是最新的。Google 从其从各种来源收集的 URL 列表开始，例如页面、站点地图、RSS 提要以及在 Google Search Console 或索引 API 中提交的 URL。它优先考虑要抓取的内容，获取页面并存储页面的副本。

处理这些页面以查找更多链接，包括指向 Google 呈现页面所需的 API 请求、JavaScript 和 CSS 等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌利用渲染服务使用这些缓存的资源来查看类似于用户的页面。

它再次处理这个并寻找对页面或新链接的任何更改。呈现页面的内容是存储在 Google 索引中并可搜索的内容。找到的任何新链接都会返回到 URL 存储桶以供其抓取。

Google 为您提供了几种方法来控制抓取和编入索引的内容。

Robots.txt – 您网站上的此文件允许您控制抓取的内容。

Nofollow – Nofollow 是一个链接属性或元机器人标签，它建议不应遵循链接。它只被认为是一个提示，所以它可以被忽略。

改变你的抓取速度——谷歌搜索控制台中的这个工具可以让你减慢谷歌的抓取速度。

删除你的内容——如果你删除了一个页面，那么就没有什么可以索引的了。这样做的缺点是没有其他人可以访问它。

限制对内容的访问——Google 不会登录网站，因此任何类型的密码保护或身份验证都会阻止它查看内容。

Noindex——元机器人标签中的 noindex 告诉搜索引擎不要索引您的页面。

URL 删除工具——谷歌的这个工具的名称有点误导，因为它的工作方式是暂时隐藏内容。Google 仍会查看和抓取这些内容，但这些页面不会出现在搜索结果中。

Robots.txt(仅限图片)——阻止 Googlebot 图片抓取意味着您的图片不会被编入索引。

许多 SEO 工具和一些恶意机器人会伪装成 Googlebot。这可能允许他们访问试图阻止他们的网站。过去，您需要运行 DNS 查找来验证 Googlebot。但最近，谷歌让它变得更加容易，并提供了一个公共 IP 列表，您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。

您还可以访问 Google Search Console 中的“抓取统计信息”报告。如果您转到“设置”>“抓取统计信息”，该报告包含大量有关 Google 如何抓取您的网站的信息。您可以查看哪个 Googlebot 正在抓取哪些文件以及它何时访问这些文件。

写在最后

网络是一个大而杂乱的地方。Googlebot 必须浏览所有不同的设置以及停机时间和限制，以收集 Google 需要其搜索引擎工作的数据。一个有趣的事实是，Googlebot 通常被描述为机器人，并且被恰当地称为“Googlebot”。还有一个蜘蛛吉祥物，名叫“克劳利(Crawley)”。

相关阅读