您的位置 首页 谷歌优化

Google如何使用NLP更好地理解搜索内容?

Google如何使用NLP更好地理解搜索内容?

自然语言处理为 Google 上的语义搜索打开了大门。SEO 需要了解转向基于实体的搜索,因为这是 Google 搜索的未来。在本文中,我们将深入探讨自然语言处理以及 Google 如何使用它来解释搜索查询和内容、实体挖掘等。

什么是自然语言处理?

自然语言处理或 NLP 使理解单词、句子和文本的含义以生成信息、知识或新文本成为可能。它由自然语言理解 (NLU) 和自然语言生成 (NLG) 组成——它允许对文本和自然语言进行语义解释。NLP 可用于:

语音识别(文本到语音和语音到文本)。

将先前捕获的语音分割成单个单词、句子和短语。

识别单词的基本形式和获取语法信息。

识别句子中单个单词的功能(主语、动词、宾语、冠词等)

提取句子和部分句子或短语的含义,例如形容词短语(例如,“too long”)、介词短语(例如,“to the river”)或名词短语(例如,“the long party”)。

识别句子上下文、句子关系和实体。

语言文本分析、情感分析、翻译(包括语音助手)、聊天机器人和底层问答系统。

以下是 NLP 的核心组件:

标记化:将一个句子分成不同的术语。

词类标注:按宾语、主语、谓语、形容词等对词进行分类。

词依赖:根据语法规则识别词之间的关系。

词形还原:确定一个词是否具有不同的形式并将变体规范化为基本形式。例如,“cars”的基本形式是“car”。

解析标签:根据依赖关系连接的两个单词之间的关系标记单词。

命名实体分析和提取:识别具有“已知”含义的单词并将它们分配给实体类型的类。一般来说,命名实体是组织、人、产品、地点和事物(名词)。在一个句子中,主语和宾语将被识别为实体。

显着性评分:确定文本与主题的关联程度。显着性通常由网络上单词的共同引用以及 Wikipedia 和 Freebase 等数据库中实体之间的关系决定。经验丰富的 SEO 从 TF-IDF 分析中知道类似的方法。

情感分析:识别文本中表达的关于实体或主题的意见(观点或态度)。

文本分类:在宏观层面,NLP 将文本分类为内容类别。文本分类有助于确定文本的大致内容。

文本分类和功能:NLP 可以更进一步,确定内容的预期功能或目的。将搜索意图与文档匹配是非常有趣的。

内容类型提取:基于结构模式或上下文,搜索引擎可以在没有结构化数据的情况下确定文本的内容类型。文本的 HTML、格式和数据类型(日期、位置、URL 等)可以在不使用标记的情况下识别它是食谱、产品、事件还是其他内容类型。

根据结构识别隐含含义:文本的格式可以改变其隐含含义。标题、换行符、列表和接近度传达了对文本的次要理解。例如,当文本显示在一个 HTML 排序的列表或一系列前面带有数字的标题中时,它很可能是一个列表或排名。该结构不仅由 HTML 标记定义,还由渲染期间的视觉字体大小/粗细和接近度定义。

NLP在搜索中的应用

多年来,谷歌已经训练了像 BERT 或 MUM 这样的语言模型来解释文本、搜索查询,甚至是视频和音频内容。这些模型是通过自然语言处理提供的。谷歌搜索主要在以下几个方面使用自然语言处理:

解释搜索查询。

文件主题和目的的分类。

文档、搜索查询和社交媒体帖子中的实体分析。

用于在语音搜索中生成精选片段和答案。

视频和音频内容的解释。

知识图谱的扩展和改进。

谷歌在 2019 年 10 月发布 BERT 更新时强调了理解自然语言在搜索中的重要性。搜索的核心是理解语言。无论您如何拼写或组合查询中的单词,我们的工作都是找出您正在搜索的内容并从网络上显示有用的信息。尽管这些年来我们一直在不断提高我们的语言理解能力,但有时我们仍然不能完全正确,尤其是对于复杂或对话式的查询。事实上,这就是人们经常使用“keyword-ese”的原因之一,即输入他们认为我们会理解的字符串,但实际上并不是他们自然提出问题的方式。

BERT & MUM:用于解释搜索查询和文档的 NLP

BERT 据说是继 RankBrain 之后几年谷歌搜索领域最关键的进步。基于 NLP,此更新旨在改进搜索查询解释,最初影响了 10% 的所有搜索查询。BERT 不仅在查询解释中发挥作用,而且在排名和编译特色片段以及解释文档中的文本调查问卷方面发挥作用。通过将 BERT 模型应用于搜索中的排名和特色片段,我们能够做得更好,帮助你找到有用的信息。事实上,在对结果进行排名时,BERT 将帮助 Search 更好地理解美国十分之一的英语搜索,随着时间的推移,我们将把它带到更多的语言和地区。

MUM 更新的推出是在 Search On '21 上宣布的。同样基于 NLP,MUM 是多语言的,使用多模态数据回答复杂的搜索查询,并处理来自不同媒体格式的信息。除了文本,MUM 还可以理解图像、视频和音频文件。MUM 结合了多种技术,使 Google 搜索更加语义化和基于上下文,从而改善用户体验。借助 MUM,Google 希望以不同的媒体格式回答复杂的搜索查询,以加入用户的客户旅程。与 BERT 和 MUM 一样,NLP 是更好的语义理解和更以用户为中心的搜索引擎的重要一步。

通过实体理解搜索查询和内容标志着从“字符串”到“事物”的转变。谷歌的目标是发展对搜索查询和内容的语义理解。通过识别搜索查询中的实体,含义和搜索意图变得更加清晰。搜索词的单个词不再独立,而是在整个搜索查询的上下文中考虑。解释搜索词的魔力发生在查询处理中。以下步骤在这里很重要:

识别搜索查询所在的主题本体。如果主题上下文明确,Google 可以选择文本文档、视频和图像的内容语料库作为可能合适的搜索结果。这对于不明确的搜索词尤其困难。

在搜索词中识别实体及其含义(命名实体识别)。

了解搜索查询的语义。

识别搜索意图。

搜索查询的语义注释。

细化搜索词。

NLP是实体挖掘最关键的方法论

自然语言处理将在谷歌识别实体及其含义方面发挥最重要的作用,使从非结构化数据中提取知识成为可能。在此基础上,可以创建实体和知识图谱之间的关系。语音标记部分对此有所帮助。名词是潜在的实体,动词通常代表实体之间的关系。形容词描述实体,副词描述关系。到目前为止,谷歌只很少使用非结构化信息来提供知识图谱。

可以假设:

到目前为止,知识图中记录的实体只是冰山一角。

谷歌还在向另一个知识库提供有关长尾实体的信息。

NLP 在为这个知识库提供信息方面发挥着核心作用。

Google 在 NLP 方面已经相当出色,但在评估自动提取的准确性信息方面尚未取得令人满意的结果。从网站等非结构化数据中对知识图谱等知识数据库进行数据挖掘是复杂的。除了信息的完整性之外,正确性也是必不可少的。如今,谷歌通过 NLP 保证大规模的完整性,但证明正确性和准确性是困难的。这可能就是为什么谷歌仍然对 SERP 中长尾实体信息的直接定位采取谨慎态度的原因。

基于实体的索引与经典的基于内容的索引

蜂鸟更新的引入为语义搜索铺平了道路。它还使知识图——以及实体——成为焦点。知识图是谷歌的实体索引。所有属性、文档和数字图像(例如配置文件和域)都围绕实体组织在基于实体的索引中。知识图目前与经典的谷歌索引并行使用以进行排名。假设 Google 在搜索查询中识别出它与知识图中记录的实体有关。在这种情况下,将访问两个索引中的信息,实体是焦点,与实体相关的所有信息和文档也会被考虑在内。经典的 Google 索引和知识图谱或其他类型的知识库之间需要一个接口或 API,以在两个索引之间交换信息。这个实体内容接口是关于找出:

一段内容中是否有实体。

是否存在内容所涉及的主要实体。

可以将主要实体分配给哪些本体或多个本体。

分配内容的作者或实体。

内容中的实体如何相互关联。

哪些属性或属性将分配给实体。

我们才刚刚开始感受到 SERP 中基于实体的搜索的影响,因为谷歌理解单个实体的含义很慢。通过社会相关性自上而下地理解实体。最相关的内容分别记录在 Wikidata 和 Wikipedia 中。最大的任务将是识别和验证长尾实体。还不清楚谷歌检查哪些标准以将实体包含在知识图中。在 2019 年 1 月的德国网站管理员环聊中,谷歌的 John Mueller 表示,他们正在研究一种更直接的方式来为每个人创建实体。

我认为我们没有明确的答案。我认为我们有不同的算法来检查类似的东西,然后我们使用不同的标准将整个事物拉在一起,将其分开并识别哪些事物是真正独立的实体,它们只是变体或不太独立的实体......但到目前为止我担心我已经看到了,这是我们正在努力扩展的东西,我想它也会更容易在知识图中获得特色。但我不知道具体的计划是什么。NLP 在扩大这一挑战方面发挥着至关重要的作用。diffbot 演示中的示例展示了 NLP 可用于实体挖掘和构建知识图谱的效果。

Google 搜索中的 NLP 将继续存在

RankBrain 被引入以通过向量空间分析来解释搜索查询和术语,而以前没有以这种方式使用过。BERT 和 MUM 使用自然语言处理来解释搜索查询和文档。除了对搜索查询和内容的解释之外,MUM 和 BERT 还打开了大门,允许知识图谱等知识数据库大规模增长,从而在谷歌推进语义搜索。谷歌搜索通过核心更新的发展也与 MUM 和 BERT 密切相关,最终与 NLP 和语义搜索密切相关。未来,我们将看到越来越多的基于实体的 Google 搜索结果取代经典的基于短语的索引和排名。

免责声明:本站不对文章内容负责,仅供读者参考,版权归原作者所有。如有影响到您的合法权益(内容、图片等),请联系本站删除。

相关阅读