基于领域本体的Web实体事件抽取问题研究 - 蜂朝网
服务电话:021-62170626

基于领域本体的Web实体事件抽取问题研究

时间: 2015-01-14 编号:sb201501142223 作者:蜂朝网
类别:在职硕士论文 行业: 字数:55110 点击量:1501
类型: 收费    费用: 0元

本站提供专业的[留学生论文]定制业务,如需服务请点击这里给我发消息,联系电话:13671516250.

文章摘要:
本文是在职硕士论文,本文基于改进的进行句子分类取得了较高的准确率和召回率,但对于部分事件的分类精度较低。下一步将研究更加高效的句子分类算法。

第1章绪论


基于本体的Web信息抽取是将本体论和信息抽取相结合的技术,通过利用对领域知识的描述信息来实现Web信息抽取,与其他Web信息抽取的方法相比减少了对文档结构的依赖性。然而由于要将本体和现有的信息抽取技术结合在一起,面临着如下问题:充分发挥本体作用的问题。目前存在的基于本体的信息抽取系统虽然取得了一定的效果,但在信息抽取过程中还没有充分领域本体的作用,只是利用了本体中的概念、实例以及它们之间的关系,对于本体中的约束信息、函数以及推理能力没有进行充分的利用。这是一个有待于要解决的问题。抽取效率较低。数据具有海量性、动态变化性等特点,由于要处理大规模性的数据,为保证抽取的效果,会使用到一些机器学习模型和复杂的抽取算法以及预处理机制。虽然提高了抽取效果,但同时降低了抽取效率。如何合理选择抽取算法和优化预处理过程是有待解决的问题。本文综合考虑基于本体的信息抽取所面临的问题,针对领域本体的构建以及基于领域本体的Web实体事件抽取展开相关研究,旨在提高实体事件抽取效率,主要研究内容包括以下两个方面:构建市场情报领域本体。创建的市场情报领域本体的好坏将会直接影响后续事件抽取的效果。所以在目前已经存在的本体构建方法的基础山,研究对于特定应用领域适用的本体构建方法,尽量避免领域专家的参与,简化构建的过程。考虑现有的本体的可复用性,复用已有的部分本体提高构建效率。针对市场情报下的实际问题,研究相应的内容本体模式以有针对性地解决问题。在构建方法的指导下,本文创建出市场情报领域本体。

.........


第2章基于本体的Web实体事件抽取研究现状


2.1事件抽取发展过程

事件抽取作为信息抽取领域中的一个主要研究方向,它的研究进展和信息抽取的研究几乎同时幵始。20世纪七十年代,当时耶鲁大学开展了针对有关故事理解的研究,主要针对关于工人罢工、地震等场景或领域,根据故事脚本的理论建立了信息抽取系统。该项研究开创了事件抽取的研究先河。随后,事件抽取研究的进一步幵展主要由相关测评会议进行推进。其中,对于事件句的检测方法中,赵研研⑷等釆用基于触发词的方法,利用事件句中的每一个词作为实例训练和判定可否是触发词的学习模型,该方法的缺点是存在大量反例,以致于正反例严重不平衡。谭红叶给出了基于正负特征与局部特征选择相结合的方法,以及许红晶提出的类别自动识别算法,都较好的解决了基于触发词方法的正反例不平衡与数据疏散的问题。对于事件句的分类算法中,赵妍妍和许红嘉分别釆用基于最大熵模型和支持向量机的二元分类器来实现对候选事件句所属类别的识别。提高事件句分类的关键点在于选择合适的事件句特征,赵妍研选取了词法、词典信息以及前后文信息等特征作为对候选事件句的描述。付剑锋等人在此基础上又引入了触发词和其他词的句法关系,将值从提高到了69.3%.


2.2事件抽取研究现状

模式匹配方法指的是在一定模式的引导下,对某一种类型事件进行识别和抽取,通过模式匹算法将己知的模式与待抽取的事件进行匹配模式匹配方法的核心步骤是模式获取,目前存在的方法主要问题是构建模式的质量较低,在匹配过程中引入了噪声从而导致事件抽取准确率降低。所以构建高质量的模式是该方法的核心。国内研究在这方面开展较晚,但同样获得了一定成就。姜吉发提出了一种无指导的事件模式获取办法,此种方法具有可移植性。该方法不需要人工对语料进行分类或是标注,也不要人工提供初始种子模式,只需要人工定义事件的类别,人工验证事件模式的质量,通过迭代循环自动学习模板。陈群秀等人针对灾难性事件提出了基于框架的抽取模式,该框架具有继承归纳特性,能够概括事件的信息,简化系统的实现过程。冯礼针对新闻要素的信息抽取,使用预先定义的事件框架,并同时检测在事件框架中没有预定义的新侧面信息,从而对事件框架进行补充。


第3章市场情报领域本体的构建.........14

3.1引言..............14

3.2本体基本理论...14

第4章基于领域本体的Wwb实体事件抽取..............28

4.1引言..........28

4.2数据预处理.....29

第5章总结与展望..............46

5.1总结........46

5.2展望...............46


第4章基于领域本体的Wwb实体事件抽取


4.1引言

Web页面中包含着大量丰富的信息,同也包含着一些噪声等对实体事件没有价值的信息。文档预处理要去除噪声信息得到页面中的文本信息。数据预处理是对Web页面中的文本信息进行预处理,包括对文本信息进行分词、词性标注以及命名实体识别等处理。本体中含有丰富的概念定义以及实例,本文将这些概念和实例和词表查询进行融合,帮助数据预处理达到更好的效果。在市场情报领域本体中,我们对事件按照类别进行了层次分类和定义,事件类别之间有着明显区别,因此本文在Web实体事件抽取时首先对包含事件的句子进行分类,即对句子所属的事件类别进行判别,分类后的句子按照特定类别的事件抽取模板和抽取规则进行抽取,能提高事件抽取的准确度和效率。本文采用改进的多类分类方法对句子进行分类,经实验证明有效可行。


4.2数据预处理

在市场情报领域本体中,我们对事件进行了分类并定义了事件的属性,每种类别的事件的属性类型是有所区别的,如收购事件中的参与对象是两个公司,而产品发布事件中的参与对象是公司和产品;产品发布事件中有产品销售。在Web实体事件抽取框架中,句子分类是将预处理后的文本文档中的句子按照事件类别进行分类。后续的事件抽取在句子分类的基础之上,针对不同的事件类别结合事件抽取模板和抽取规则进行信息抽取。句子分类是一个多类分类问题,目前存在很多基于机器学习方法的分类器,本文选择使用支持向量机对句子进行多类分类。支持向量机是一种基于统计学习基础上的机器方法,最大特点是采用了结构风险最小化的原则,将非线性空间问题转化到了线性空间,在解决非线性、小样本与高维模式识别的问题中体现出了很多优势。本文在分析SVM多类分类算法基础上,结合本体中事件的特点,对有向无环图方法和二叉树方法进行了融合改进。

..........


第5章总结与展望

5.1总结

本文首先介绍了信息抽取的发展过程和在各领域内的研究现状,并分析了现有的Web信息抽取技术存在的问题,对于特定领域没有针对性,无法满足抽取的全面性和准确性。基于本体Web信息抽取技术显示出了很大的优势,通过将本体和信息抽取技术结合在一块,利用对领域知识的描述信息来实现Web信息抽取。目前的本体构造方法往往是根据各自问题解决时提出的,对于特定应用领域并没有通用的本体构建方法。本文以市场情报领域为研究背景,针对构建有效地领域本体和基于本体的Web实体事件抽取问题进行了相关研究,主要的工作和贡献概况如下, 在分析现有的本体构建方法基础上,提出了适用于特定领域的本体构建方法,有效降低领域专家的参与程度,从而提高构建效率。在该方法的指导下,通过借鉴电子商务网站的知识和复用现有本体,本文构建了市场情报领域本体。针对实体间关系会随时间变化的问题,本文提出了动态实体关系模式并给出了形式化定义。


5.2展望

本文的本体构建工作借鉴了电子商务网站中的知识,但是基本上是由人工完成的,如何通过半自动或自动化的方法构建本体是今后要考虑的问题。领域本体的好坏直接影响信息抽取的性能,所以下一步要对本文构建的市场情报领域本体进行完善和细化,将抽取出来的事件信息自动填充本体,丰富本体中的实例信息。句子分类的性能会影响到后续事件抽取的性能。本文基于改进的进行句子分类取得了较高的准确率和召回率,但对于部分事件的分类精度较低。下一步将研究更加高效的句子分类算法。事件抽取中使用了本体中事件概念、规则和关系,但本体中约束信息和推理能力没有得到很好的利用,本体的作用没有得到最大的发挥。下一步,将充分有效地利用本体来提高事件抽取的效率和准确率。

...........

参考文献(略)


如需定做,在职硕士论文请联系我们专家定制团队,QQ337068431,热线咨询电话:021-62170626
分享到: