基于加权异构网络之多维文本数据分析技能探讨 - 蜂朝网
服务电话:021-62170626

基于加权异构网络之多维文本数据分析技能探讨

时间: 2014-12-07 编号:sb201412071939 作者:蜂朝网
类别:在职硕士论文 行业: 字数:51110 点击量:997
类型: 收费    费用: 0元

本站提供专业的[留学生论文]定制业务,如需服务请点击这里给我发消息,联系电话:13671516250.

文章摘要:
本文是在职硕士论文,本文将信息网络分析应用于多维文本数据的文本特征维的构建,根据节点间关联映射构造出加权异构信息网络,利用了多社团发现的信息网络分析方法来对多维文本数据中的结构化属性类数据和非结构化文本类数据进行综合处理分析,生成了文本特征维度。

第1章绪论


富含文本内容的多维文本数据已经成为人们日常生活中不可或缺的交流和知识获取媒介,对含有文本的数据进行有效的建模和分析,将帮助理解我们所关注信息的演化和进行态势分析,在此基础上为主题搜索、信息推荐、舆情分析、个性化的智能服务以及行业数据分析、商业服务等提供强有力的技术基础,能够进一步对文本数据进行更复杂的分析研究,并且在很多现实领域具有较强的实用价值。无论是商业研究还是科学研究,还是其他领域研究,都存在对多维文本数据进行分析挖掘的强烈需求,其价值性引起人们的广泛关注。信息网络是我们分析研究中经常采用的模型工具,韩家炜等人开创性的提出可以利用信息网络分析方法,从数据库中发现知识。这种分析方法能够分析节点间的相互联系,以及节点所蕴含的信息内容,具有较强的表达能力,适合应用于各种结构对象。构建文本特征维度是对多维文本数据进行分析的重要基础和研究方法。因此,本文的研究是探索如何利用信息网络分析方法在多维文本数据中自动构建文本特征维度,提高分析结果的可读性。但是,对于多维文本数据的复杂性,数据间复杂的交互、影响以及文本数据关联的不确定性等,基于信息网络分析方法的多维文本数据分析研究面临众多全新的挑战,其中一个重要挑战是:在多维文本数据中映射和建立信息网络的动态分析模型以及基于信息网络充分分析多维文本数据并构建文本特征维度。

........


第2章文本特征维度生成方法框架


2.1问题实例

以上问题实例发生的原因,本论文认为就是源于我们不清楚面对的数据里面有什么?所以,即使是领域专家也无法完全掌握和了解全部的数据构成,人工参与建立的层次维度导航树就会显得很简单,不足以满足我们发现知识的需要。我们需要研究让计算机进行数据挖掘辅助实现多维文本数据的文本维度发现,以方便我们从文本特征维度角度了解多维文本数据的大概情况。但是,当文本数据对象增多之后,我们研究起来就变得很不方便。以查找论文资料数据为例,我们论文资料查找中,一般都是针对某一个细节问题或者具体研究成果去查找,对于哪些真正有帮助的文献资料我们在了解之前往往想不出具体而确切的特征描述词语,出现这种情况时就容易导致我们不得不面临在查询返回结果中“大海搜针”式的浏览,收获差强人意。


2.2基本思想

本文方法的思想有一个重要的前提假设:在文档一作者集合中,如果文档节点被划分在一个领域集合中,那么相对应的作者节点也在同一个领域集合中,反之亦然。如图2.2所示。基于此假设,本文发现对于作者或者文档任一方面节点进行划分都会影响另一方的归属。对于作者或文档可能涉及多领域的冲突情况,本文利用设置关联阈值在多社团发现中进行类似“一刀切”方法,相似度权值大者为主要的领域。


第3章构造加权异构信息网络模型方法........18

3.1定义加权异构信息网络模型..........18

3.2节点间关耳关关系和关耳关强度.........20

3.3计算网络中节点间相似度方法.......22

第4章基于加权异构信息网络的文本特征维度生成方法.......28

4.1基于权重的加权异构信息网络的多社团发现方法................28

4.2基于多社团发现的层次维度生成方法........31

4.3文本特征维度的度量抽取........33

第5章实验分析.......34

5.1实验环境和数据集............34

5.2实验方法步骤36

5.3维度发现有效性分析38


第5章实验分析


5.1实验环境和数据集

在搜集和处理论文文档的PDF格式文件过程中,我们提取了包含作者、会议、单位、日期等属性信息,以及标题、摘要、关键词、正文等文本信息。经过研究分析,本文认为论文文档的作者属性,是重要的文档关联属性信息之一,对文档维度研究具有重要的参照意义。原始数据整理后形成的多维文本数据库形式如表5.2所示图。


5.2实验方法步骤

根据5.2中提到的方法步骤,生成特征维度树。如表5.3是维度树部分层次节点的效果表。从表中可以发现,由于实现方法釆用滑动窗口方法抽取高频特征短语,而非主题建模方法,因而产生的特征短语并不一定等价于主题关键词,但是,绝大部分的特征短语能够被正确生成和反映出论文社团集合特征,便于解读。为了有效说明本文提出的算法的准确性以及实用性,我们用本文中的基于加权异构信息网络方法对所收集的多维文本数据集进行多社团发现实验,并将社团结果与经典的支持向量机分类方法在准确率方面进行比对。其主要原因是由于这些论文的文档短语的出现频率很不高的特点,导致个短语序列不理想进而影响了结果。由此,发现准确率还与文档类型和文档内容等情况都有很多的关系,结果受其影响会有较大波动。本文方法还考虑作者和路径的影响,可以在一定程度抑制不利影响,能够更加合理有效地对文档进行判断,所以,准确率表现得相对稳定一些。

............


第6章总结与展望


本文将信息网络分析应用于多维文本数据的文本特征维的构建,根据节点间关联映射构造出加权异构信息网络,利用了多社团发现的信息网络分析方法来对多维文本数据中的结构化属性类数据和非结构化文本类数据进行综合处理分析,生成了文本特征维度,同时,利用文本集合的特征短语作为度量,使得生成的维度和度量都具有简单直观的表达效果。验证表明该方法具有良好的发现效果。本文提出的加权异构信息网络分析模型具有较好的可用性,但是该方法依然有许多方面需要改进,未来在处理大数据集效率上需要做进一步的研究。经典的召回率和准确率并不一定能完美反映出维度的好坏,可以进一步考虑如何评价发现维度的效果。论文方法生成的文本特征维度能否真实展现数据集的全貌,是否有利于我们更快更方便的了解和定位目标数据,目前,更多的是通过案例观察来评判,缺乏通用而且具有代表性的数据集和评价标准来衡量和比较生成不同维度的效果。

...........

参考文献(略)


如需定做,在职硕士论文请联系我们专家定制团队,QQ337068431,热线咨询电话:021-62170626
分享到: