Google On Robots.txt：何时使用 noindex 与 Disallow

在最近的一段 YouTube 视频中，Google 的 Martin Splitt 解释了机器人元标记中的“noindex”标签与robots.txt文件中的“disallow”命令之间的区别。

Google 的开发技术推广工程师 Splitt 指出，这两种方法都有助于管理搜索引擎爬虫与网站的工作方式。

但是，它们具有不同的用途，不应相互替代。

何时使用 noindex

“noindex” 指令告诉搜索引擎不要在其搜索结果中包含特定页面。您可以使用 robots 元标记或 X-Robots HTTP 标头在 HTML head 部分中添加此说明。

如果你想让某个页面不出现在搜索结果中，但仍然允许搜索引擎读取该页面的内容，请使用 “noindex”。这对于用户可以看到但您不希望搜索引擎显示的页面(如感谢页面或内部搜索结果页面)非常有用。

何时使用 Disallow

网站 robots.txt 文件中的 “disallow” 指令可阻止搜索引擎爬虫访问特定的 URL 或模式。当页面被禁止时，搜索引擎将不会抓取或索引其内容。

Splitt 建议在你想完全阻止搜索引擎检索或处理页面时使用 “disallow”。这适用于敏感信息(如用户私人数据)或与搜索引擎无关的网页。

要避免的常见错误

网站所有者常犯的一个错误是对同一页面使用 “noindex” 和 “disallow”。Splitt 建议不要这样做，因为它可能会导致问题。

如果 robots.txt 文件中不允许某个页面，则搜索引擎无法在页面的 meta 标记或 X-Robots 标头中看到“noindex”命令。因此，该页面可能仍会被编入索引，但信息有限。

要阻止页面出现在搜索结果中，Splitt 建议使用“noindex”命令，而不在 robots.txt 文件中禁止该页面。

Google 在 Google Search Console 中提供了一个robots.txt报告，以测试和监控robots.txt文件如何影响搜索引擎索引。

为什么这很重要

了解 “noindex” 和 “disallow” 指令的正确使用对于 SEO 专业人士来说至关重要。

遵循 Google 的建议并使用可用的测试工具将有助于确保您的内容按预期显示在搜索结果中。

相关阅读