Googlebot 是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。Googlebot 拥有移动和桌面抓取工具,以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务,每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。
Googlebot 是常青树,这意味着它可以像用户在最新的 Chrome 浏览器中一样看待网站。Googlebot 在数千台机器上运行。他们决定在网站上抓取的速度和内容。但它们会减慢爬行速度,以免网站不堪重负。让我们看看他们构建网络索引的过程。
Googlebot 如何抓取网络并将其编入索引?
谷歌过去曾分享过其管道的几个版本。以下是最新的。Google 从其从各种来源收集的 URL 列表开始,例如页面、站点地图、RSS 提要以及在 Google Search Console 或索引 API 中提交的 URL。它优先考虑要抓取的内容,获取页面并存储页面的副本。
处理这些页面以查找更多链接,包括指向 Google 呈现页面所需的 API 请求、JavaScript 和 CSS 等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌利用渲染服务使用这些缓存的资源来查看类似于用户的页面。
它再次处理这个并寻找对页面或新链接的任何更改。呈现页面的内容是存储在 Google 索引中并可搜索的内容。找到的任何新链接都会返回到 URL 存储桶以供其抓取。
如何控制 Googlebot?
Google 为您提供了几种方法来控制抓取和编入索引的内容。
1. 控制爬行的方法
Robots.txt – 您网站上的此文件允许您控制抓取的内容。
Nofollow – Nofollow 是一个链接属性或元机器人标签,它建议不应遵循链接。它只被认为是一个提示,所以它可以被忽略。
改变你的抓取速度——谷歌搜索控制台中的这个工具可以让你减慢谷歌的抓取速度。
2. 控制索引的方法
删除你的内容——如果你删除了一个页面,那么就没有什么可以索引的了。这样做的缺点是没有其他人可以访问它。
限制对内容的访问——Google 不会登录网站,因此任何类型的密码保护或身份验证都会阻止它查看内容。
Noindex——元机器人标签中的 noindex 告诉搜索引擎不要索引您的页面。
URL 删除工具——谷歌的这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。Google 仍会查看和抓取这些内容,但这些页面不会出现在搜索结果中。
Robots.txt(仅限图片)——阻止 Googlebot 图片抓取意味着您的图片不会被编入索引。
如何验证Googlebot 的真实性?
许多 SEO 工具和一些恶意机器人会伪装成 Googlebot。这可能允许他们访问试图阻止他们的网站。过去,您需要运行 DNS 查找来验证 Googlebot。但最近,谷歌让它变得更加容易,并提供了一个公共 IP 列表,您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。
您还可以访问 Google Search Console 中的“抓取统计信息”报告。如果您转到“设置”>“抓取统计信息”,该报告包含大量有关 Google 如何抓取您的网站的信息。您可以查看哪个 Googlebot 正在抓取哪些文件以及它何时访问这些文件。
写在最后
网络是一个大而杂乱的地方。Googlebot 必须浏览所有不同的设置以及停机时间和限制,以收集 Google 需要其搜索引擎工作的数据。一个有趣的事实是,Googlebot 通常被描述为机器人,并且被恰当地称为“Googlebot”。还有一个蜘蛛吉祥物,名叫“克劳利(Crawley)”。