重复内容对于搜索引擎来说是一个很常见问题,因为很多网站都存在多个页面包含相同或相似内容的情况。
为解决这一问题,谷歌采用了一种名为规范化(Canonicalization)的流程。通过这一流程,谷歌能够选取一个网址作为主要版本进行收录,并在搜索结果中展示。以确保不会出现用户搜索一个关键词,出来多个相同的结果,从而达到保证用户搜索体验的目的。
那在存在重复页面的情况下,谷歌是如何确定将哪个页面作为主要版本的呢?
谷歌的Allan Scott在最新的一期视频里面作了说明,表示涉及到的信号大约有40个之多。
原文:
“I’m not sure what the exact number is right now because it goes up and down, but I suspect it’s somewhere in the neighborhood of 40.”
目前在页面已知的,会影响页面主要版本的信号主要包括:
Canonical标签
301重定向
HTTPS vs. HTTP
网站地图
内链
URL长度
但谷歌居然说信号有40个之多,真是大大超过我们之前所认为的。不过也有可能是谷歌把一些信号做了进一步的细分,例如把内链方面的信号拆为锚文本、内链使用次数、内链点击次数等等。
不同的信号重要程度也不一样
由于存在众多起作用的信号,Allan承认,当这些信号相互冲突时,确定网页的主要版本还是有一些难度的。
“If your signals conflict with each other, what’s going to happen is the system will start falling back on lesser signals.”
这意味着,尽管像Canonical标签和301重定向这样的信号优先度可能会较高,但当这些信号不明确或相互矛盾时,其他因素就可能发挥作用了。
因此,谷歌的规范化处理流程涉及一种微妙的权衡举措,以便确定最合适的规范网址。
规范化网址的最佳实践
清晰的信号有助于谷歌识别首选的规范网址,因此建议大家:
正确使用“rel=”canonical”标签。
对永久迁移的内容实施301重定向。
确保页面的超文本传输安全协议(HTTPS)版本可访问且有链接指向它们。
提交包含首选规范网址的网站地图。
保持内部链接的一致性。
这些信号有助于谷歌找到正确的规范网址,提升你的网站的抓取、索引以及搜索可见性。
需避免的错误
不正确或相互冲突的Canonical标签:
- 指向不存在的页面或显示404错误的页面;
- 在一个页面上设置多个指向不同网址的Canonical标签;
- 完全指向另一个不同的域名;
解决办法:仔细检查Canonical标签,每页仅使用一个标签,并使用绝对网址。
Canonical标签的死循环
当页面A将页面B指定为规范页面,但页面B又回指页面A或者指向其他页面,从而形成一个循环。
解决办法:确保规范网址始终指向页面最终的、首选的版本。
同时使用“禁止索引”(noindex)和Canonical标签
这会向搜索引擎发送混淆的信号。“noindex”意味着根本不让页面被索引,这样Canonical标签就变得无关紧要了。
解决办法:使用Canonical标签进行内容整合,使用“禁止索引”标签来排除页面。
规范网址指向重定向页面或“noindex”页面
把规范网址指向重定向页面或“noindex”页面会让搜索引擎对页面主要版本的判断。
解决办法:规范网址应该是状态码为200且可被索引的页面。
忽视大小写
网址大小写不一致可能会导致内容重复的问题。
解决办法:保持网址和Canonical标签的大小写一致。
忽略分页和参数
如果处理不当,分页内容以及带有大量参数的网址可能会导致内容重复。
解决办法:对于分页内容,使用Canonical标签指向第一页或“查看全部”页面,并保持参数的一致性。
谷歌具体看哪40个信号,不太可能对外公布的。但这次Allan的回应,表明了谷歌对于重复内容的重视程度以及评判标准可能会远超我们想象,值得我们去关注。