搜索引擎中各大服务模块构成了搜索引擎的工作流程,但是每个服务模块需要正常运作,还需要强大的技术支撑,这些技术主要包含自然语言处理、知识、图谱海量数据存储、分布式计算及搜索排序等,其中的每项技术都会对搜索引、擎的搜索结果产生非常重要的影响。(本文来源:深圳邓煌生seo培训 http://sdshqyj.com)
 
 
1、自然语言处理技术
自然语言处理( Natural  Language Processing,NLP)是人工智能领域与语言学的交叉学科,  目的在于让计算机能够认知人类语言。在搜索引擎技术中自然语言处理主要用于海量数据的文本挖掘。

 
在搜索引擎获得海量互联网数据之后,利用大数据分析原理及自然语言处理对数据进行文本挖掘,以发现更多具有价值的信息。文本挖掘主要分为文本分析及特征分析。文本分析包括分词技术词性分析语义分析依存句法分析和句子相似度等。特征分析包括文本语种检测、文档核心句子提取、文本关键词提取、文本情感分析以及文本聚类挖掘流程。
 
中文分词   对中文句子进行分词处理,将完成一句话处理为词语的集合
英文分词  将英文进行词形还原,并将英文句子拆分为一个一个单词的形式
词性分析 主要针对中文分词后的词语,确定词语在句子中的词性成分,如名词、动词等
语义分析  针对不同的词语,计算在语义上的相似度,例如,两个词虽然文字不同,但可能表述相同的信息
依存句法分析  将分词后的句子,对句子成分进行结构化分析,以及句中词语之间的相互关系分析
句子相似度 根据句子中的成分,确定句子在表述上的相似程度
语种检测  对处理文本的表述语种进行检测,并确定其所属语言,如简体中文、繁体中文、英文等
关键词提取 对处理的文本进行分析,抽取其最具典型代表的词语
 核心句提取 对于一篇文档内容,由多旬文本组成,选取出最具代表该文档的句子   
情感分析 获得文本在进行信息描述时,带有一定的情感,例如积极与消极程度  
文本聚类  不同的文本,可能表述的是同一个类别的信息,将此类型的文本放置在一起
文本分类  不同的文本可能属于各种类别,将文本所属的类别进行识别,并给定其确定性类别
   
    
  
 
 
 
在搜索引擎的基本模块结构中,爬虫服务从互联网中采集的大量数据信息,在通过自然语言处理框架处理之后,将文本信息逐步分析成为结构化数据及价值性数据,实现构建知识图谱及数据索引。在搜索服务中也会;使用自然语言处理去深入理解用户的搜索意图。
 
SEO
 
2、知识图谱技术
 
知识图谱目前已经是现代搜索引擎的标配,但是在大数据时代之前,很多公司还不愿涉足此领域,原因在于研发成本较高,但是现在已经截然不同。知识图谱技术是为搜索引擎提供精准答案的技术基础,  目前几乎所有的搜索引擎公司都非常重视知识图谱的研发工作。知识图谱作为一种图结构,实质是对一个结构化数据的形式化表达,它的构建是通过大数据不断分析各类知识信息、知识之间的关系最终构成的。(本文来源:深圳邓煌生实战seo培训)
 
知识图谱中有三个非常重要的概念:实体、实体标签和实体关系,它们是知识图谱中基本的组成元素。
 
 
(1)实体。表示具有分析价值的具体对象,包括人、物、时间、地理位置等,如“马云”“打印机”“1949年”“北京一‘颐和园”等。
 
(2)实体标签。是在实体中,具有标识意义的标签信息,能够对实体做到一定的区分度。例如“中国艺人梁朝伟”,其中“梁朝伟”作为人名,被视为实体,“中国艺人”即实体“梁朝伟”的实体标签。

 
(3)实体关系。顾名思义是指实体与实体之间存在的关系,例如“北京是中国”和“中国”分别代表两个实体,而“首都”表示两者之间的关系,即实体关系。

 
再通过具体的例子分析实体、实体关系,对“唐朝”与“李白”相关的两个句子进行实体与实体关系分析。


句子 主体A 主体B 实体关系
唐朝出生的李白出生于公元7011年,逝世于公元762年    李白 唐朝
公元701
公元762年
李白出生朝代(唐朝)
李白出生(公元701年)
李白逝世于(公元762年)
 
图2-6

 
 
上述完成了对实体及实体关通过上述信息构建知识图谱,图2-6所示为依据表2-3构建的知识图谱信息,充分表现出实体、实体标签和实体关系相关元素。
 
 
对于实现图2-6中所示效果,默认情况下:;;会告知实体标签信息需要根据实际情况获取。完成整个知识图谱构建不仅依赖于自然语言处理技术,而且文本中的实体识别、实体关系抽取及实体标签自动化标注、实体对齐去重等,都是构建过程中必须解决的问题。



seo优化服务、seo培训,选择邓煌生seo专家,排名稳定,有效果付费!邓煌生QQ:2962980933