网络爬虫(也称为蜘蛛或机器人)是访问(或“爬行”)网络页面的程序。搜索引擎使用爬虫来发现内容,然后将其编入索引,即存储在其庞大的数据库中。这些程序通过跟踪您网站上的链接来发现您的内容。但由于抓取错误,这个过程并不总是顺利。在我们深入研究这些错误以及如何解决它们之前,让我们先从基础知识开始。
什么是抓取错误?
当搜索引擎抓取工具无法按照正常方式浏览您的网页时,就会出现抓取错误。发生这种情况时,Google 等搜索引擎无法充分探索和理解您网站的内容或结构。这是一个问题,因为抓取错误可能会阻止您的页面被发现。 这意味着它们无法被编入索引、出现在搜索结果中或为您的网站带来自然(免费)流量。Google 将抓取错误分为两类:网站错误和 URL 错误。让我们来探讨一下。
1. 站点错误
网站错误是可能影响整个网站的抓取错误。服务器、DNS 和 robots.txt 错误是最常见的。
2. 服务器错误
当服务器阻止页面加载时,会发生服务器错误(返回 5xx HTTP 状态代码)。以下是最常见的服务器错误:
内部服务器错误 (500):服务器无法完成请求。 但当无法获得更具体的错误时,也可以触发它。
错误网关错误 (502):一台服务器充当网关并从另一台服务器接收到无效响应
服务不可用错误(503):服务器当前不可用,通常是在服务器正在修复或更新时
网关超时错误(504):一台服务器充当网关,没有及时收到另一台服务器的响应。 就像网站流量过多时一样。
当搜索引擎不断遇到 5xx 错误时,它们会降低网站的抓取速度。这意味着像 Google 这样的搜索引擎可能无法发现并索引您的所有内容。Google 可能会从其索引中删除经常出现 5xx 问题的网址。 因此,请务必使用站点审核来跟踪任何 5xx 错误
3. DNS 错误
域名系统 (DNS) 错误是指搜索引擎无法连接到您的域。所有网站和设备都至少有一个互联网协议 (IP) 地址,用于在网络上唯一标识它们。DNS 通过将域名与 IP 地址进行匹配,使人和计算机能够更轻松地相互通信。如果没有 DNS,我们将手动输入网站的 IP 地址,而不是键入其 URL。DNS 错误比服务器错误少见,但您可能会遇到以下情况:
DNS超时:您的DNS服务器没有及时回复搜索引擎的请求
DNS 查找:搜索引擎无法访问您的网站,因为您的 DNS 服务器无法找到您的域名
4. Robots.txt 错误
当搜索引擎无法检索您的 robots.txt 文件时,就会出现 Robots.txt 错误。您的 robots.txt 文件告诉搜索引擎可以抓取哪些页面以及不能抓取哪些页面。以下是该文件的三个主要部分以及每个部分的作用:
用户代理:这一行标识爬虫。 “*”表示该规则适用于所有搜索引擎机器人。
禁止/允许:此行告诉搜索引擎机器人是否应该抓取您的网站或网站的某些部分
站点地图:此行指示您的站点地图位置
将站点地图索引 URL(包含所有站点地图的主站点地图)添加到 robots.txt 文件中。 帮助爬虫更快地发现和理解您网站的结构。
5. 网址错误
与网站错误不同,URL 错误仅影响网站上特定页面的可抓取性。
6. 404 错误
404 错误意味着搜索引擎机器人无法找到该 URL,这是最常见的 URL 错误之一。它发生在以下情况:
您更改了页面的 URL,但未更新指向该页面的旧链接
您已从网站中删除了页面或文章,但未添加重定向
您的链接已损坏——例如,URL 中有错误
如今大多数公司都使用自定义 404 页面。这些自定义页面改善了用户体验。 并让您与网站的设计和品牌保持一致。
7. 403 禁止错误
403禁止错误意味着服务器拒绝了爬虫的请求。 这意味着服务器理解该请求,但爬虫无法访问该 URL。服务器权限问题是 403 错误背后的主要原因。服务器权限定义用户和管理员对文件夹或文件的权限。我们可以将权限分为三类:读、写、执行。例如,如果您没有读取权限,您将无法访问 URL。
有故障的 .htaccess 文件是 403 错误的另一个经常出现的原因。.htaccess 文件是 Apache 服务器上使用的配置文件。它对于配置设置和实施重定向很有帮助。但是 .htaccess 文件中的任何错误都可能导致 403 错误等问题。
8. 重定向循环
当页面 A 重定向到页面 B,页面 B 重定向到页面 A 时,就会发生重定向循环。结果就是无限循环的重定向会阻止访问者和爬虫访问您的内容。这可能会阻碍你的排名。
如何查找抓取错误?
Google Search Console 是一款出色的工具,可为识别抓取错误提供宝贵的帮助。
前往您的 GSC 帐户,然后单击左侧边栏上的“设置”。
然后,单击“抓取统计”选项卡旁边的“打开报告”。
向下滚动查看 Google 是否注意到您网站上的抓取问题。
单击任何问题,例如 5xx 服务器错误。
您将看到与您选择的错误匹配的 URL 的完整列表。
现在,您可以一一解决它们。
如何修复抓取错误?
我们现在知道如何识别抓取错误,下一步是更好地了解如何修复它们。您可能会经常遇到 404 错误,好消息是它们很容易修复。您可以使用重定向来修复 404 错误。使用 301 重定向进行永久重定向,因为它们允许您保留一些原始页面的权限。 并使用 302 重定向进行临时重定向。
如何选择重定向的目标 URL?
以下是一些最佳实践:
如果内容仍然存在,则添加到新 URL 的重定向
如果内容不再存在,则添加重定向到处理相同或高度相似主题的页面
部署重定向有三种主要方法。
第一种方法是使用插件。
以下是一些最流行的 WordPress 重定向插件:
重定向
Yoast SEO(仅适用于高级计划)
301 重定向
第二种方法是直接在服务器配置文件中添加重定向。
以下是 Apache 服务器上 .htaccess 文件上的 301 重定向的样子。
重定向 301 https://www.yoursite点com/old-page/ https://www.yoursite.com/new-page/
您可以将此行分为四个部分:
重定向:指定我们要重定向流量
301:表示重定向代码,说明这是一个永久重定向
https://www.yoursite点com/old-page/:标识要重定向的 URL
https://www.yoursite点com/new-page/:标识要重定向到的 URL
如果您是初学者,我们不推荐此选项。因为如果您不确定自己在做什么,可能会对您的网站产生负面影响。因此,如果您选择走这条路,请务必与开发人员合作。最后,如果您使用 Wix 或 Shopify,则可以直接从后端添加重定向。如果您使用的是 Wix,请滚动到网站控制面板的底部--然后点击“营销和搜索引擎优化”下的“搜索引擎优化”--单击“工具和设置”部分下的“转到 URL 重定向管理器”--然后,单击右上角的“+新重定向”按钮将显示一个弹出窗口。 在这里,您可以选择重定向类型,输入要重定向的旧 URL 以及要定向到的新 URL。
如果您使用 Shopify,请遵循以下步骤:
登录您的帐户,然后点击“销售渠道”下的“在线商店”。
然后,选择“导航”。
从这里,转到“查看 URL 重定向”。
单击“创建 URL 重定向”按钮。
输入您希望将访问者重定向至的旧 URL 以及要将访问者重定向至的新 URL。 “输入“/”以定位您商店的主页。)
最后,保存重定向。
损坏的链接(指向无法找到的页面的链接)也可能是 404 错误背后的原因。 那么,让我们看看如何使用站点审核工具快速识别损坏的链接并修复它们。
损坏的链接指向不存在的页面或资源。假设您正在撰写一篇新文章,并且想要添加一个指向“yoursite点com/about”的“关于”页面的内部链接。链接上的任何拼写错误都会创建损坏的链接。因此,如果您忘记了字母“b”并输入“yoursite点com/aout”而不是“yoursite点com/about”,您将收到断开链接错误。损坏的链接可能是内部(指向您网站上的另一个页面)或外部(指向另一个网站)。
要查找损坏的链接,请配置站点审核(如果尚未配置)。然后,转到“问题”选项卡。现在,在表格顶部的搜索栏中输入“内部链接”,以查找与损坏链接相关的问题。单击问题中的蓝色可点击文本即可查看受影响 URL 的完整列表。要修复这些问题,请更改链接、恢复丢失的页面或将 301 重定向添加到网站上的另一个相关页面。
写在最后
为了确保您的网站可以被抓取(并建立索引和排名),您应该首先使其对搜索引擎友好。如果不是,您的页面可能不会显示在搜索结果中。因此,您不会带来任何自然流量。使用站点审核工具可以轻松查找和修复可爬行性和可索引性问题。您甚至可以将其设置为定期自动抓取您的网站。 确保您随时了解需要解决的任何爬网错误。