从中国语言魅力看SEO如何进行中文百度分词


       五千年华夏,泱泱哉大国。在中国,文化一词渊源颇深。无论是发明历数、天文、阴阳五行,还是十二生肖、甲子纪年、文字无不体现着中国文化的源远流长。而这其中中国语言的魅力更是其中的一朵奇葩,没有任何一种语言能够比得过中国语言那般华丽多姿变幻莫测难以分辨。也正因如此,不同的汉字随意的组合拆分便会出现不同的意思,也就构成了SEO中百度中文分词这一理论。

  一个发音一件事,十个数字数首诗

  从《诗》、《书》、《礼》、《乐》到四大名著,无不体现着中国语言的魅力,汉字在联合国教科文组织认定的最难学习的语言排名第一。同一个发音的字组合在一起可以描述一件事,同一个字可以表达不同的意思,普通的数字也可以形成一首诗。

  例1:一个发音一件事

  《季姬击鸡记》:季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡……通篇只有一个读音的中国古文,相信很多人读起来都会头痛,而其翻译起来便是季姬感到寂寞,罗集了一些鸡来养,是那种出自荆棘丛中的野鸡。野鸡饿了叫嘎嘎,季姬就拿竹箕中的小米喂它们。鸡吃饱了,跳到季姬的书箱上,季姬怕脏,忙赶鸡……

  2:同字不同意

  中国的文字不得不让人配服它的深奥,简简单单的一个字便可以出现N多种不同的意思。举例来说,就拿我们平时比较熟悉的字来说,它便有着多种的解释同时有着多种的读音,当读作shù时,多为名词,如数学、数字等;当读作shǔ时,多为动词,如数星星等;当读作shuò时,常用于古文中,多为副词,如数见不鲜等;当读做cù 时便可做数罟-——《孟子梁惠王上》有数罟不入洿池,鱼鳖不可胜食也。

  3:十个数字数首诗

看到这个例子首先朋友们便会联想到上一个例子当中的同字不同意,一个题目出现了两个字,只是意思不同罢了。而做为最普通的数字在诗人的笔下便成为了佳作——“一去二三里,烟村四五家。楼台六七座,八九十枝花一首诗,包含了十个数字;清人王士祯作过一首《题秋江独钓图》,也是有名的数字诗一蓑一笠一扁舟,一丈丝纶一寸钩;一曲高歌一樽酒,一人独钓一江秋”……

百度中文分词,中国语言文化的产物

提到百度中文分词,相信所有的SEOer都不陌生,中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。其作用是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 

之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:   

1.中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。 

2.在中文里,词组边界模糊——现代汉语的基本表达单元虽然为,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。 

正因为中文分词技术是基于上述两点原因而产生的,因此我们说SEO中文分词是中国语言文化的产物。

百度中文分词如何进行

对于搜索引擎来说最常用的分词方法无非有五种——字符串匹配的方法、理解分词方法、统计分词方法、歧义词语的识别和新词识别。

所谓的字符串匹配法又可分为4种:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分;4.双向最大匹配法

理解分词方法则是指机器模拟人的思维方式由机器在合理的情况下在其语言知识、词语积累完全配合的情况下进行机器控制语句、词意以及分词来模拟人来读取网页信息。

统计分词方法目前有两种方式:词的出现频率、文本统计和文本词库

    歧义词语的识别主要是指交集型歧义(表面的)和组合型歧义(化妆和服装)

新词识别主要指专业术语或者是命名实体比如”人名、地名、机构名、商标”等在百度词库用定位为专有词库。

    SEO优化网站标题是关键

    事间万物都有其必然和不必要的联系,正所谓环环相扣,一个网站想要尽快获得排名,除了要有高的权重、好的文章、高质量的外部内部链接之外,网站标题是否可以吸引到点击量也是重要的一环。如何为网站取一个能够一鸣惊人的标题就需要SEOer将标题与中文分词结合起来。

    首先我们要考虑到的是当你准备进行网站优化时,如果你是用户你会如何利用百度进行搜索,在搜索的过程当中你会用到哪些搜索词。当你的网站标题与搜索词能够匹配,加上网站的权重便会有一个很好的排名。

其次当你发现你所优化的网站标题与搜索词达不到相互匹配的时候,通过中文分词的方法——正向、逆向、统计、理解、以及新词和歧义词会使网站相关率有所提高。

    中国文化经过事事非非依然屹立不倒充分说明了它的价值所在,许多事物都是在中国文化的基础上衍生出来的,因此要想成为一个真正的SEOer要真正了解中国文化的精髓,从而更好的运用到工作当中去。