本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
本文是在职硕士论文,本文研究了基于领域词典的中文文本相似度的计算,首先基于维基百科构建了科学领域的中文词典,通过对中文文本信息处理中的常用文本相似度计算方法进行比较,对其精确度和复杂度进行分析,针对其优缺点,提出了一个基于关键词(高频词汇的)语义相似度计算方法,并进行了验证。
第1章绪论
1.1课题研究的背景和意义
计算机与互联网技术的高速发展令网络里的数据资源呈现几何级增长,里面很大一部分数据是文本数据,例如办公文档、文本文档、网页、Email、XML文档、各种报表等等。这类信息相对于计算机来说是很难理解与应用的,信息智能化自动处理成为信息处理的重要内容,而自动处理中的重要问题便是相似度的计算问题,相似度计算成为众多应用的基本问题。
跟相似度紧密相关的是相似性,心理学家认为:相似性的产生是由于人们的一种心里反应,这种反应产生于人们受到感知对象的刺激的时候。比如,我们在感知到父子二人的神态相貌等一系列信息刺激后会产生“很像”的一种心理反应,不过这种反应仅仅只是对父子二人进行了定性的比较,但没有定量地去进行表示。在实际应用过程中,还要从定量的角度去给出二者之间的相似程度,从定量的角度所表示出的相似性指标,通常称为相似度。相似度的计算方法在语义网、信息集成、信息检索、知识管理、数据挖掘等研究工作过程中具有十分重要的意义。
对于对象相似度的计算,通常的计算方法是计算词语之间的相似度,但是随着网络的发展,网络文本的内容指数级增长,大大提高了文本的基数,在一定领域中的文本匹配问题里,提高了文本匹配的工作量。如何才能在保证精确度没有问题的情况下,保证在单位时间内匹配的工作量,成为人们研究的重点问题,尤其是在中文情况下的文本匹配,这个问题特别明显。
近年来,随着文本本体被广泛的应用,更多的学者逐渐开始重视起借助文本本体来进行语义分析。所以,幵展关于文本本体的应用研究和语义相似度计算有着非常重要的理论意义与现实意义。根据现在国内外的研究情况来看,基于科学领域的中文文本相似度计算成为计算机科学研究的一项重要课题。
1.2国内外研究现状
自上世纪八十年代起,语义相似度计算就已经取得了一系列研究成果,这些研究成果根据研究对象的信息粒度来分,主要集中在文档、句子和概念等层面的相似度计算上。目前研究的主要侧重面就是概念语义相似度计算,典型的方法有基于路径距离的方法和基于属性的方法。
(1)基于路径距离的方法,其思想是首先计算两个待匹配概念在文本结构树状分类系体系里的路径长度,根据这个长度来量化两个待匹配概念之间的距离。其主要代表方法有:Weighted Links方法、Shortest Path方法、Leacock&Chodorow方法、Wu&Palmer方法等。
(2)基于属性的方法,该方法关注的是事物本身的属性特征,根据事物的属性特征来对事物进行区分,如果两个事物之间,它们包含的公共属性多,则说明这两个概念的关联程度高,通过计算两者的公共属性,计算二者之间的关联程度。
第2章文本相似度相关研究目前国内外都比较重视文本相似度的研究,并取得了大量重要的研究成果,比如分词技术、分词算法和文本相似度的计算方法,下面对此作进一步的介绍。
2.1语义相似度
在文本相似度的相关研究中,语义相似度是一个基础的研宄内容,其主要研究内容是采取什么样的方法来计算或者比较两个词语的相似度。在中文语言中,词语之间的关系比较复杂,这就需要在实际的应用中,把其复杂的关系用某种数量度量。
2.1.1相似度的基本概念
相似度计算是许多信息处理领域的基础技术,如机器翻译,自动问答、数据挖掘、查询检索等,对图像、声音等电子信息形式,特别是对于文本信息的处理,是非常重要的。
在以往的工作中,研究人员都习惯用模型和公式来表示相似度的含义,例如概念模型、布尔模型、向量空间模型等。后来在Dekang Lin的研究中,他提出了一个相似度的非形式化定义,认为相似度计算包括计算两个对象的相同属性有关系和距离有关系。如果两个待比较对象之间相同的属性越多,那么说明其相似度越高,若距离越远则相似度越低。
不同的领域应用中,相似度所表示的意义也不尽相同。以机器翻译为例,一个词语可能是几个意思相近的词语的汇聚,那么就可以用这几个词语对原词语进行注释或者表达其含义。以机器学习为基础构造自动问答系统为例,査询的问题规约成语句,然后和数据库中的原有的句子进行匹配,如果匹配成功,系统就对给出数据库中句子对应的答案,语句之间的相似度计算是这一过程的重点。同时,在盗窃检测系统、版权维护与文本查重中,系统通过计算段落之间的相似度来确定最后的相似度结果。
2.2文档相似度
在文档相似度计算中,对文本文档分词是前期的基础工作,其分词效果如何,将直接影响到文本相似度计算的效率。
2.2.1中文分词技术
中文文本有其特定的语言属性,词语之间并不以空格符作为词语的分隔,要想在文本匹配的过程中高效并且精确,需要将文本做分词处理。分词主要有以下方法:
(1)最长个数正方向遍历比较法。此方法所依据的设计思想如下:设分词所依据的词典是CCD——中文概念词典结构,设Max是词典里最长的词语长度,按照从句首至句尾的顺序,将句子从句首以Max定长进行字符串匹配,如果匹配成功,则表示成功分割一个词语。然后向后移动个字符串,对文本继续进行切分;如果匹配没有成功,则将Max减1,继续从句首向句尾进行匹配。
(2)最长个数逆方向遍历比较法。该方法是正方向遍历最长个数比较法的改进,在对句子进行遍历过程中,从句尾开始遍历,也就是最长个数正方向遍历方法的倒置。
(3)对向对比匹配法。方法思想是将前面两个方法进行融合,先从句首开始匹配,得到一个分词结果,然后从句尾幵始匹配,得到另一个结果。对先后两次分词结果进行比较,将两次分词结果中相同的词语提取出来,作为正确的结果。对于其他的不相同词语,接下来还要做进一步的歧义分析。
(4)词语渐进匹配法。这个方法是将句子从句首到句尾进行判定,把文本中的词,不断的归入到词典结构中。将文本中的词和词典结构中的词作对比。若匹配成功,先对该词语进行歧义分析,若没有歧义,则表示该词提取成功,反之,去掉该词,对文本按照原来的步骤继续进行分词。
第3章基于维基百科的领域词典构建.......12
3.1维基百科与语义词典..........12
3.1.1维基百科的原理与体系结构.......12
3.1.2中文概念词典结构......13
第4章基于领域词典的文本相似度计算......25
4.1基于领域词典的中文文本预处理.........25
4.1.1文本预处理......25
第五章结与展望.......34
5.1本文工作总结.......34
5.2展望.........36
第4章基于领域词典的文本相似度计算
对于中文文本的相似度计算,在对文本进行预处理后,需要进行针对中文文本的分词处理,在分词结果中进行关键字提取。以此为基础进行词汇、句子到最后的中文文本相似度计算。
4.1基于领域词典的中文文本预处理
在文本文档中,一般情况下一个句子的不同的位置,它的重要程度非常不同,并且一般重要的词语项通常集中在重要的句子中,所以,这里采用了一种标引词的预处理方法,这个方法在很大程度上注重词语项之间的相对位置和词语项在句子中的位置。为了能够更方便得得到一些重要的词语信息,就需要对文档进行必要的了一些前期的处理,主要工作是对文本文档进行分词及词语属性标注。
4.1.1文本预处理
在做相似度匹配之前,对于文本的预处理一个非常重要的准备过程,若文本项处理过程中,采用正确的方法来提高系统的性能,能够大幅度的提高整个匹配速度,从而影响整个系统的运算处理速度。
因为中文文本和英文文本的有着巨大的差异,并且中文文本有着的自己特别的语义特征,目前国外相对来说比较成熟的预处理技术还不能直接运用于中文文本的预处理,基于语义的中文文档预处理方法是目前比较适合中文文档的处理方法。
基于概念是中文文本文档的一个特性,而构成这些概念的基本单位是词,我们在上文构造的基于科学领域的词典结构对词语及其构成的概念采用了规范、一致的整理。通过计算词语之间的关联度,结合基于科学领域中文词典结构中提供的同义关系、词语在文本文档中的中的上下位关系的计算,并且根据对语义及其概念的挖掘,提取词典结构中关系所构造的概念信息,结合词语之间相对关系,得到文本文档中有词语的各个义项的同义词集和上下位词序列,并找到它的最长匹配序列,得到的最长那个匹配序列这里看作这个次与在文本文档所表达的意思,这样在一定程度上会达到消除歧义的目的,从而得到正确的分词结果。在这过程中,需要用词语语义信息来进行标注,这样能够方便计算机记忆和理解。
第五章总结与展望
5.1本文工作总结
现在,国内的许多学者和科研人员都越来越关注中文文本的相似度计算,其应用前景也越来越广泛。在数据挖掘、机器学习、人工智能翻译、搜索引擎等领域,中文文本相似度计算的占有越来越大的分量。中文文本相似度计算涉及技术比较广泛,本文对课题的研究意义及存在的问题进行了阐述,对目前国内外的文本相似度计算方法进行了研究,对基于集合模型的匹配算法和基于空间向量模型的相似度算法做了介绍,发现这两个算法在处理中文本文的时候有其局限性。
本文的主要研究工作有以下几方面:
(1)对语义相似度和文档相似度做了介绍说明。
(2)分析了两种传统的文本相似度算法,并对中文分词技术和模式匹配技术这两个在文本匹配过程中重要的两个技术做了研究分析。
(3)构建了以维基百科为基础的中文词典结构。
(4)在前面理论分析的基础上,对文本匹配的过程,从文本预处理到关键词提取做了深入研究。
(5)提出对中文文本相似度的从词到句然后到整个文本的相似度算法。
5.2展望
中文文本相似度计算是一件非常有意义的工作,并且有相当大的研究空间。
(1)本文构建了基于维基百科的中文词典结构,虽然维基百科是一个非常先进的知识系统,但是他还是不能完全融合汉语的博大精深。现在国内外研究文本相似度匹配的大多数算法都是根据英文结构为基础,构建有效的中文词典结构,在中文文本相似度研究工作前是一个很好的基础。中文的词语量也是在不断变化的,对于一些新生的词汇,或者一些旧词,人们赋予其新的意义,在以后的词典结构的构建中要更加重视。
(2)在文本分词过程中,由与汉语博大精深,语义比较复杂,在今后的研究工作中,设计一个更加符合中文词性的分词结构是一个很有意义研究方向。
(3)我们在第四章的文本相似度的计算中,对于一个关键词,在映射到词典结构中后所得到同义词及上下位词,对于这些词在文本文档中所在的句子进行标注提取,在后边的计算中,我们没有区分这些句子的重要程度,而是将其构造为一个集合平等对待。但是对于两个文本文档的关键词,假若两个关键词的匹配程度比较高,由这两个关键词所得到的同义词及上下位词所在句子的重视程度,是否应该加强,简单的来说就是最后得到的句子集合中的各个句子我们是否应该平等对待,在以后的工作中,还要做进一步的研究。
参考文献(略)
