南阳网站建设|南阳网站优化|南阳网站推广|南阳seo

南阳网站建设团队为南阳企业提供南阳SEO服务,含南阳网站建设-南阳网站优化-南阳网站推广

« 中文分词方法 基础知识分析竞争对手网站学习seo »

百度中文分词算法

    阅读本文前您需要了解有关中文分词的一些基本方法和原理,您可以参看这篇文章 中文分词方法 基础知识 。百度的中文分词算法大概如下:
  首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果。
  下面我们通过几个例子来验证一下刚才提到的百度的中文分词算法。
  我们提交一个查询“毛泽东北京华烟云”,一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”毛泽东/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/泽/东北/京华烟云”,我们看看百度的分词结果:”毛泽东/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点,我们提交查询”发毛泽东北”,我们期望两种分词结果,一个是正向最大匹配,一个是上述假设的结果,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。
  继续测验,提交查询“古巴比伦理”,如果是正向最大匹配,那么结果应该是古巴比伦/理,如果是反向最大匹配,那么结果应该是古巴/比/伦理,事实上百度的分词结果是古/巴比伦/理,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询“北京华烟云”,可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果。
  通过实例来验证自己的想法是提高seo水平的行之有效的方法,毕竟老师是要花钱请的,网上的软文是看不成的,只有百度是最公正的。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

copyright © 2002-2008 南阳网站建设 online services. all rights reserved. 豫ICP备05011913号
同风工作室 专业的南阳seo团队 返回首页 - 版权申明 - 隐私政策 - 联系我们