百度分词-什么是百度分词-百度分词技术的好处

  • A+
所属分类:SEO技术

百度分词-什么是百度分词-百度分词技术如何用
分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。
中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。
数据处理
  我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。   
1.首先是到数据库里面索引相关的信息,这就是查询处理。那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。  
举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。   
2.然后再看用户提供的这个词有没有重复词汇
如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。这就是搜索引擎的查询处理。
分词的原理
 百度是如何来分词的呢?分词技术现今非常成熟了。
1.字符串匹配的分词方法
  这是种常用的分词法,百度就是用此种分词。字符串匹配的分词方法,又分为3种分词方法。  字符串匹配方法:在百度中搜索“我喜欢玩宠物连连看”而在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。这样文章标题中的长尾是在排名中非常重要的。而在百度第二页“我喜欢玩宠物连连看”用百度快照查看,很显然长尾词已经被分成“我喜欢,玩,宠物连连看”而在外后已经被分成:“我,喜欢玩,宠物,连连看
(1).正向最大匹配法   就是把一个词从左至右来分词。举个例子:”不知道你在说什么”   这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。   
(2).反向最大匹配法   "不知道你在说什么"反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。  
(3).就是最短路径分词法。   就是说一段话里面要求切出的词数是最少的。   “不知道你在说什么”最短路径分词法就是指,把上面哪句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
2.词义分词法
  就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,处在测试阶段。
3.理解分词方法:当输入的字符串中包含≤3个中文字符的话百度分词就会直接接到数据库索引词汇;而当字符串长度》4个中文字符的时候,百度中分词会会把这个词分成若干个字符。如:百度搜索“电动车”。
4.统计分词法
  根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。
统计分词方法:相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。例如在百度中输入一个字符“网”而在下面百度也把“网站”标红了,这样可以看得出“网”与“站”这两个字符相邻出现的次数非常多,统计分词已经把“网站”纳入了词库。
对于百度中文分词的理解:

中文分词中强调一点:“按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配”;长尾词在文章中的间距也是决定文章排名的因素。如:“我喜欢玩宠物连连看”在百度第十三页的时候已经被分词成“我,喜欢,玩,宠物,连连,看”

全字匹配得到的词的权重会高于分开的词的权重。
根据自己的观察现在百度大部分都是使用的是正向匹配。
百度分词对于一句话分词之后,还会去掉句子中的没有意义的词语。

百度分词技术的好处是什么?
1、通过百度分词技术,我们知道词与词之间的匹配,它们是基于字符串的匹配,基于理解,基于统计进行百度分词匹配。
2、通过百度分词技术,我们知道页面与页面之间的匹配,通过百度分词技术原则进行探讨,我们通词与词之的匹配原则,那么我们判定一个页面与一个页面是否匹配度,就看它的内容与另一个页面的内容是否属于相关性的内容。从而搜索引擎很容易页面与页面匹配性,这也就是有一些网页的排名好,而有一些网页的排名不怎么好,这也是关于百度分词。
3、通过百度分词技术,我们知道页面与页面相关性的匹配。因为百度是根据当用户输入某一个词的时候,找与该词相关的内容进行匹配良组合与整理,从而按照最关性的词汇,把它们的排名搞得比较靠前,这就是百度分词技术原理性

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  1   博主  0

    • avatar 捷易通 0

      分析的很细致,到位