中文篇章级句间关系分析 - 蜂朝网
服务电话:021-62170626

中文篇章级句间关系分析

时间: 2015-01-30 编号:sb201501301968 作者:蜂朝网
类别:在职硕士论文 行业: 字数:49611 点击量:1468
类型: 收费    费用: 0元

本站提供专业的[留学生论文]定制业务,如需服务请点击这里给我发消息,联系电话:13671516250.

文章摘要:
本文是在职硕士论文,本文研究了面向中文特色的篇章级句间关系自动分析。本课题共完成三部分内容,分别是面向中文的语义单元自动切分、中文连词识别以及中文句间关系识别。

第 1 章 绪 论


随着分词、词性标注等词汇级别上的 NLP 处理技术的飞速发展,信息抽取的各方面任务如命名体识别、事件抽取及依存分析等都取得了可以实用的效果。但是关于篇章中信息的组织结构研究却一直进展不大。由于目前越来越多的任务需要理解句子甚至是篇章所表达的语义来提升效果,比如通过理解篇章的语义对情感分析、问答系统以及文本连贯性分析等任务都能起到关键性的帮助,因此篇章中信息的组织结构方式正逐渐成为国内外学者的研究焦点。每一篇文章都是由一定的句子集合组成,这些单独的句子通过一定的结构组织来传达这篇文章所要表达的语义。而且每个句子一般是由多个分句组成,分句之间同样按照一定的结构组织来表达整个句子的语义。因此篇章中信息的组织方式是通过篇章中的句子之间以及分句之间的逻辑语义关系,即句间关系体现出来,比如句子之间存在的时序关系、转折关系等。篇章级句间关系分析是在词汇分析、短语分析的基础上对篇章进行更高层次地分析其句子之间的逻辑语义关系,通过对句子内部的分句以及句子之间的逻辑语义关系分析来理解篇章中信息的组织方式。篇章级句间关系分析包括两部分内容:句子级别的语义单元切分以及语义单元之间语义关系的识别。

...........


第 2 章 基本语义单元切分


2.1 引言

人们在理解一篇文章语义的时候首先是理解文章中每个句子的语义,然后通过各个句子之间的逻辑语义关系来整体理解一篇文章所要表达的语义。而在理解每个句子语义的时候,是在理解组成句子的各个分句的语义的基础上通过各个分句之间的逻辑语义关系来理解整个句子的语义。因此如果计算机想要理解一篇文章的整体语义,第一步就需要分析获取一篇文章的组成结构。文章是由最基本的句子组成,而每一个句子是由一个或者多个基本语义单元通过各种逻辑语义关系连接组成。本课题研究的篇章级句间关系是指存在于篇章中两个语义单元之间的逻辑语义关系。因此,篇章级句间关系分析的首要任务就是对篇章中的句子进行基本语义单元切分,将篇章中的句子表示成基本基本语义单元的集合并在此基础上构建篇章的语义单元树。


2.2 基本语义单元定义

本文在此基础上结合国内外研究提出了基于短语结构分析的基本语义单元定义。该方法的主要思想是在一个句子中重要的词是其中的动词和名词,其中动词在依存分析中称之为核心词(Head word)。而语义单元是句子中具有独立性和表述性的最小单元,因此最基本的语义单元至少包含一个动词。最终篇章中的每一个句子就表示为一棵由基本语义单元组成的语义单元树,对例 2 中的句子在短语结构分析的基础上进行语义单元分割形成的语义单元树如图 2 所示。整个句子作为一个语义单元由语义单元 1 和语义单元 2 连接而成。而语义单元 2 由语义单元 2.1 和语义单元 2.2 组成。人们习惯于在一个句子中使用多个基本语义单元来表达语义。比如例 2.a中的句子就由两个基本语义单元组成,其中 edu1 介绍了“昨天下了一天的雨”这个事件,而 edu2 表达了“晾在外面的衣服都淋湿了”这一事实,而在此句子中并没有比 edu1 和 edu2 范围更小的能够表达一个完整语义的文本块。


第 3 章 中文连词词典构建及中文连词识别 ...........................16

3.1 引言 ................... 16

3.2 中文连词分布情况 .................................. 17

第 4 章 中文句间关系识别 ............................25

4.1 引言 ............................. 25

4.2 篇章级句间关系定义 ......................... 26

第 5 章 中文篇章级句间关系语料库及分析平台 ...........................39

5.1 引言 ......................... 39

5.2 哈工大中文篇章级句间关系语料库(HIT-CDTB) ............. 40


第 5 章 中文篇章级句间关系语料库及分析平台


5.1 引言

但是目前大家都集中在依靠人工标注的连词和人工标注的语义单元去识别篇章中句子之间以及句子内部之间语义单元之间的句间关系,妨碍了篇章级句间关系分析的实际应用。特别是在中文方面,目前并没有公开的篇章级句间关系语料以及可以实用的篇章级句间关系自动分析研究。鉴于目前越来越多的自然语言处理相关的任务需要自动化的篇章级句间关系自动分析。本文首先公布了首个中文篇章级句间关系语料库(HIT-CDTB),并在前期分别完成了面向中文的基本语义切分、连词识别以及句间关系识别的基础上开发了面向中文的篇章级句间关系自动分析平台。


5.2 哈工大中文篇章级句间关系语料库(HIT-CDTB)

借鉴 PDTB 的格式,我们对来源于 Ontonotes4.0 的 1096 篇中文原始语料进行了标注。通过人工对 1096 篇语料进行过滤我们得到了 525 篇标注良好的中文篇章级句间关系语料(主要是过滤掉了政治敏感和文章结构紊乱以及篇幅太短的语料)。最终语料的题材来源主要分为以下四类:bn (broadcast news)、mz (magazine)、nw(news)、wb (web)。此次标注我们的标注内容主要分为三个部分:基本语义单元标注,由标注人员选择篇章中存在句间关系的文本块;连词标注,由标注人员标注文本块中是否存在一个连词;句间关系标注,由标注人员决定两个文本块之间的句间关系属于哪一个类别。因为是首次标注面向中文的篇章级句间关系语料库,并且考虑到由于中英文的差别并不能直接将英文方面的句间关系体系平移过来,因此我们在借鉴英文句间关系体系的基础上提出了面向中文的句间关系体系。该句间关系体系共分为 6 大类(54 小类),其中顶层的 6 大类句间关系分别为:1 时序关系、2因果关系、3 条件关系、4 比较关系、5 扩展关系和 6 并列关系。中文篇章级句间关系体系图如图 5-2 所示。


.........


结论


为了分析中文篇章中信息的组织结构,本文研究了面向中文特色的篇章级句间关系自动分析。本课题共完成三部分内容,分别是面向中文的语义单元自动切分、中文连词识别以及中文句间关系识别。在独自完成了三个部分的研究后,本文在此基础上搭建了中文篇章级句间关系分析平台,并公布了首个中文篇章级句间关系语料库,为篇章级句间关系的实际应用提供了有力的支持。对篇章和句子进行基本语义单元切分是篇章级句间关系分析的第一步,也是最具有挑战性的一步。本文首先分析了由于中文逗号的特色问题导致了中文逗号并不适合用于对篇章和句子进行语义单元切分,随后本文在分析中文语料的基础上提出了基于短语结构分析的基本语义单元切分方法,实验表明该方法能够取得很好的结果。为了自动识别篇章中的连词,我们分析了中文连词的分布情况以及中文语料中的每个词作为连词的可能性分布,并在此基础上构建了中文连词词典。随后我们首先研究了使用连词词典进行连词识别的效果,发现准确率在 71%左右。在此基础上我们通过在中文篇章级句间关系语料库的基础上抽取连词出现的上下文特征训练了基于 SVM 分类的连词识别模型,实验表明,识别的准确率达到了 86%左右,有效的提升了连词识别的准确性。

..............

参考文献(略)


如需定做,在职硕士论文请联系我们专家定制团队,QQ337068431,热线咨询电话:021-62170626
分享到: