本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
本文是在职硕士论文,本文以挖掘P2P网络中的侵权社区为目的,旨在以社区为单位,探讨版权内容在对等网络中的传播与分布。首先,综合考虑版权内容共享相似度和语义相似度构建版权内容相似度图;然后借助版权内容相似度,构建“边语义权重”的节点关系联接图;并通过改进的基于行为者网络模型的ANMGN算法,实施侵权社区的发现与挖掘。
第1章绪论
1.1研究背景
Peer-to-Peer对等计算,简称(P2P)网络以互联网作为基础设施,是一种分布式的互联网络。在这种网络中,所有节点都是具有独立处理能力的计算机,每台计算机既能充当客户端,又能作为服务器向其他计算机提供资源与服务,可以被其他对等节点直接访问并且不用经过任何中间实体,因而具有非中心化,可扩展,动态性等特点。节点可以自主随时进入或撤离网络,提供服务或使用服务,节点之间直接共享信息和部分硬件资源(微处理器计算能力、存储能力、网络连接能力、打印机资源、软件资源等)。
P2P网络在资源共享,对等计算,协同工作和信息检索等方面具有客户端月艮务器(C/S)模式无法可比的巨大潜力。
P2P网络主要应用就是文件共享领域,优势如下载速度快和资源丰富等。内容共享主要包括内容下载和内容上传两个方面。内容下载过程开始是查询请求阶段,请求节点首先向网络其他节点发送查询请求,收到查询请求的节点查看是否拥有请求节点需要的资源,就会对此请求进行响应;然后是内容下载阶段,请求节点选择相应的节点进行内容下载,下载过程需节点之间相互协调完成。内容上传过程,节点可以自主选择可以共享的文件进行分享或指定接受用户进行文件的传输。整个过程没有权威第三方监管和严格的内容授权机制,缺少对版权内容的保护,节点之间通过上传或分享不良资源和侵权内容,就出现了不良资源和盗版侵权内容传播问题,给网络也带来了前所未有的信任危机。P2P网络中对版权传播和监管变得十分迫切,对不良内容的传播和对版权内容的管理也十分困难。
正是基于以上背景,提出了基于社区挖掘的对等网络版权内容管控的研究。需要解决问题如下:一方面,相互分享内容的节点之间就组成了节点关系网,版权内容就在这个网络之间进行传播。网络中的存在一些节点,他们之间频繁传递大量的版权内容,构成一个社区结构。另一个重要方面,网络中存在海量的版权内容,我们需要研究社区之间传递的消息之间是否具有较高的版权内容相似度,只有在相似度高的情况下,版权内容的扩散能力才比较大,社区对网络存在的潜在威胁度比其他节点构成的社区也大得多。
1.2相关研究内容
目前版权内容传播分析研究,主要有数字版权管理技术和用户节点信任分析两个方面。数字版权管理技术是一个系统概念,在已有的各种技术上,包括:利用加密技术加密数字资源,绑定硬件信息,从而防止了非法拷贝行为;数字使用权限表征语言描述权限许可,数字权限描述是行为方在某条件下对指定资源享有的某种权利;数字水印技术是信息安全技术领域在开放网络环境下新的研究方向,该技术将创作信息和个人标志嵌入在多媒体中进行内容版权的管理,判断该内容是否是盗版内容等,达到防范对版权内容无授权复制和使用的基本目标。数字版权管理技术确保了多媒体内容能够合法使用及传播,由于存在不同产业集团的利益驱动,还与个人合理使用存在冲突,其标准化实施和安全性面临着多方面问题。并且数字版权管理技术是基于互联网的模式,没有在对等网络中实现真正应用。
用户节点信任分析旨在记录网络中每个节点上传和下载行为,包括行为持续时间,记录上传和下载内容,判断节点是否对版权内容传播的贡献度和威胁度,深入挖掘用户之间文件共享关系。文献网络中存在部分关键节点,这些节点有很高的度。一旦这些关键点在网络中进行版权内容传播,将会很快扩散。在文献中提出的信任机制是基于节点的信誉,通过设置独立的节点标识符来判断其是可信的,然后进一步判断该节点所包含的资源也是可信的。在文献中提出的信任模型是基于贝叶斯网络的,该方法通过对ETA概率密度函数的统计和更新来对节点的信任度进行量化。节点行为的主观性会对信任的评估产生重要的影响,文献提出新的分布式信任模型,描述行为的信任倾向问题。P2P网络中的节点是不断地加入或离开网络的行为,会造成网络抖动现象,文献研究了抖动所产生的影响,并找到影响节点信任不确定度的衰减减速的关键因素。Song等人引用模糊逻辑理论推理和计算节点的全局信任,进一步解决了因为信息模糊造成的计算粗糙。
总结以上研究工作,两类方法解决对等网络侵权问题存在一些不足:(1)对单个资源的版权管理和单个节点的信任行为研究都是比较复杂的耗时的;(2)对节点行为动态性、主观性和节点间的相似度缺乏足够分析;(3)对侵权行为和版权内容的传播没有提出有效的反制策略;(4)对传播路径难以发现或并且缺少研究;(5)节点信任度和威胁度之间没有加以明确区分。
社区结构之间的节点不仅传递大量信息,并且信息之间有较高的内容相似度,因此本文提出侵权社区的概念,考虑内容相似度和用户行为两个因素,我们首先对网络进行社区挖掘,然后进一步分析社团的威胁度,从而达到版权内容传播管理的目的。
第2章对等网络中侵权社区挖掘研究综述
为了解决对等网络中的侵权内容传播问题我们需要对侵权社区问题进行建模。建模是以数学方法描述网络中的节点及他们之间的关系,也是研究问题的重要手段和前提。在建模的基础上,我们探讨侵权社区挖掘解决方案。本文首先简单介绍对等网络的分类及内容共享应用,然后分析侵权社区模型,并研究解决侵权社区挖掘算法。最后介绍解决方案中的关键技术和定义。
2.1对等网络中的内容共享
P2P网络将传统网络中的中心服务器的处理响应分布于网络中的各节点,减弱或取消中心服务器的地位并有整个网络共同承担,共享网络中的计算资源、存储资源及宽带资源。
P2P网络按照中央化度一般分为全分布式、集中式和混合式PWP:全分布式P2P节点完全平等,集中式P2P中有一些索引服务器来对请求作出响应,节点通过服务器发布自己能共享的信息,让需要的节点下载其可以共享的信息;混合式P2P没有服务器,取而代之是一些性能较高超级节点,超级节点之间传递请求,并将资源传递给有需求的普通用户。
P2P网络按照拓扑结构分为结构化以及非结构化P2P。结构化P2P节点之间互有联接信息,彼此形成规则的拓扑结构,请求消息也按照拓扑结构规则寻找;非结构化的P2P网络节点之间相互联接,但没有固定的拓扑结构,请求消息按照广播方式传播,支持全文搜索、关键字查询、多关键字查询、模糊查询等。目前较为广泛使用的是非结构化的P2P网络。
因为缺少第三方的监管机制,节点之间传递的内容涉及版权侵权或是不良内容时,不会得到有效检测。我们将侵权内容和不良内容统称为版权内容,将共享版权内容的节点成为恶意节点。恶意节点利用P2P网络技术,散播版权内容,用户下载文件时,只有当下载完后才能判断是否是所请求的文件,甚至是恶意文件或病毒。因此,对文件共享出现的版权内容传播问题研究显得非常重要。
2.2侵权社区问题模型
社区是复杂网络的一个重要特征,相同类型节点之间的连接较多,类型不同的节点之间连接较少,这些相同类型节点以及节点之间的联接边构成的子图称为网络中的社区或结构。网络中社区的构建一般有两种方式:基于兴趣的和基于消息传递的。基于兴趣的方式例如:社会网络中的个人根据背景或兴趣形成真实社区,互联网中若干网站讨论同一话题形成社区等。基于消息传递根据节点之间联系紧密度确定是否数以同一社区。根据社区形成过程知道,文件资源是分布在P2P网络节点上的,这些节点共享着一些版权内容,版权内容在这些节点之间传播,共享传递版权内容的这些节点就组成了社区结构,我们称之为侵权社区。
侵权社区C1、C2和C3中的节点之间共享相似度很高的版权文件,并且节点之间传播着大量版权内容。节点nodel是社区外的节点,含有和社区C3内节点相似的内容,但是没有传递版权内容,没有划入到侵权社区之内。
在对等网络中构建侵权社区,仅考虑兴趣或消息传递都是不合适的。看如下例子:网络中有三个节点:A、B和C,每个节点都包含10个版权文件;在一中条件下,A和B经常交换一些信息,而C仅仅是被动的接受了版权文件,并没有进行传播,此时A和B应该在一个社区,如果是基于兴趣的方法,三者会被分为同一社区;考虑另一种情况,A和B交换信息频率很大,但交换的信息都是合法的,信息之间也是没有关系的,用基于消息传递的方法,将A和B分在一个社区显示也是不对的;于是我们考虑内容相似度和消息权重两个方面。
第3章基于行为者网络模型的侵权社区挖掘方法.......13
3.1基于行为者网络模型的侵权社区挖掘流程........13
3.2网络数据预处理模块......14
3.3内容相似度图构建模块......14
第4章基于侵权社区挖掘的版权内容监管........34
4.1侵权社区的动态更新.......34
4.2侵权社区断点反制策略.......37
第章总结与展望......44
5.1本文工作总结...........44
5.2工作展望........45
第4章基于侵权社区挖掘的版权内容监管
为了深入挖掘对等网络内版权内容分享与传播,网络内节点的内容交互共享关系,本文提出了基于行为者网络模型的侵权社区挖掘方法。首先基于本体理论建立版权内容相似度图,确保版权内容相似度计算的语义准确性,为下一步的基于边的语义权重的节点关系联接的建立提供了可靠的保障。版权内容相似度图和节点关系联接图的联合分析是基于行为者网络理论模型的。在此基础上,提出了社区挖掘算法,找到包含大量版权内容的社区结构。我们下面以社区为研究对象,实现对网络中版权内容传播的检测与控制。
4.1侵权社区的动态更新
对于P2P网络,要实现对版权内容在节点之间扩散趋势的预测,进而完成预先的区域预警和管控的目的,需要对节点关系联接网络进行实时更行。本节提出了节点关系联接网络动态更新的一种方法。
节点关系联接网是爬虫数据是对整个网络数据进行获取的基础上形成的,更新过程也需要更新已有的数据和新的捕获数据。节点关系联接网的初始构建需要完整的获取P2P网络中的版权内容和节点关系,重新载入数据库完成构建侵权社区过程。
现有的系统数据更新一般采用周期性的迭代更新,定时的更新整个网络数据,实现节点关系联接图的整体更新和重建,然后进行社区挖掘。然而整体的更新过程消耗大量的计算资源,系统应该支持局部的动态更新。当一个节点加入到网络,从偶然的侵权行为到常见的侵权行为,才会引起侵权社区的变化,而那些新加入的没有侵权行为的节点是不需要考虑的,也无需更新节点关系网络。己经存在于网络中的节点,因为侵权行为有一定的历史习惯性,节点行为一般不会发生变化。下面围绕新加入节点的行为变化,提出了局部动态更新的迭代方法。
第5章总结与展望
5.1本文工作总结
本文以挖掘P2P网络中的侵权社区为目的,旨在以社区为单位,探讨版权内容在对等网络中的传播与分布。首先,综合考虑版权内容共享相似度和语义相似度构建版权内容相似度图;然后借助版权内容相似度,构建“边语义权重”的节点关系联接图;并通过改进的基于行为者网络模型的ANMGN算法,实施侵权社区的发现与挖掘。同时,本文探讨了社区模型的动态更新方法,并提出了迭代局部更新机制,最终达到节点关系联接图的整体高效更新。
另外,本文还研究了网络行为分析方法,对网络中节点主观行为进行量化,分析用户节点主观行为对网络中盗版内容传播的影响,并推算版权内容传播潜在的扩散趋势。以上都为制定侵权社区反制策略奠定了基础。
最后我们制定了“断点反制”和“断边反制”方法,两种抑制盗版内容在网络中传播的反制机制。
本文的主要工作和贡献如下:
1、构建版权内容相似度图时,我们引入本体理论,提取版权内容概念元信息,分析包括语法相关性、类型相关性和结构相似性在内的语义相关性,更加准确地计算版权内容之间的相关性,系统对网络中的版权内容的识别也更细致和准确。
2、基于行为者网络理论,在版权内容相似度图的基础上,我们构建边语义权重的节点关系联接图。该权重,不仅统计节点之间信息传播的频率,更重要的是考虑消息间的语义相关性。最后,还提供一种可调节直径的“漏斗”过滤与蹄选模型,控制系统对网络监管的粒度。
3、侵权社区挖掘模块,我们改进GN算法,更有效地发现对等网络中的侵权社区,为接下来的网络监管提供了保障。ANMGN算法通过每次删除多条件提高算法的效率,并且引入社团增益,判断算法结束点。为社团划分效果提出了社团度、节点威胁度和版权内容覆盖度三个衡量标准。
参考文献(略)
