社会化标注体制中群组推荐方法概述 - 蜂朝网
服务电话:021-62170626

社会化标注体制中群组推荐方法概述

时间: 2014-10-27 编号:sb201410270996 作者:蜂朝网
类别:博士论文 行业: 字数:64599 点击量:868
类型: 收费    费用: 0元

本站提供专业的[留学生论文]定制业务,如需服务请点击这里给我发消息,联系电话:13671516250.

文章摘要:
本文是计算机系统结构博士论文,本文针对现有研究利用基于内容的推荐算法在为图片推荐组时没有考虑用户兴趣的问题,提出了基于四阶张量分解的Flickr组推荐算法,将用户的兴趣信息引入到推荐模型中,利用基于协同过滤的推荐算法为用户推荐组。该算法利用四阶张量建模图片、用户、标签和组之间的四元关系,利用高阶奇异值分解和kernel-SVD技术挖掘用户潜在的兴趣信息以及图片和组之间潜在的语义关系,为图片推荐满足用户兴趣需要的组。

第1章绪论

 

1.1研究背景

随着Internet特别是Web 2.0技术的发展,用户由网络信息的被动浏览者转变为网络信息的主动制造者,互联网上出现了大量的社会化标注系统,如图片共享网站Flickr、视频共享网站Youtube、网页共享网站Dleicious等。这些网站的共同特点是允许用户通过一个开放的平台对共享资源进行个性化标注。其中大多数知名网站如FlickrYoutube等,同时允许用户上传资源并将资源分享到感兴趣的群组中,Dleicious网站也在最近的版本中添加了群组功能。群组是具有相同兴趣的用户自发组织的分享共同感兴趣资源的社区,任何用户均可以创建或参与群组。用户参与群组,不仅可以分享资源,浏览群组内其他用户上传的资源,还可以与群组内具有相同兴趣的用户交流,扩展其社会网络。由于群组能够满足用户间交互与兴趣分享等诸多需求,近年来吸引了大量的用户。但是随着社会化标注系统的流行,群组数量出现了飞速的增长,用户很难从海量的群组中找到自己感兴趣的群组。尽管大多数社会化标注系统提供了通过关键词查找群组的功能,但是与同一个关键词相关的群组可能有成千或上万个。例如,2014年2月25日,利用关键词“Flower”在Flickr中查找群组,得到92,095条查询结果。面对如此庞大的查询结果集,用户很难从中选择自己真正感兴趣的群组,特别是当用户无法用关键词准确描述自己的需求时,按照关键词查询的蹄选效果将大打折扣。因此,迫切需要一种工具帮助用户解决上述问题,从大量的群组信息中过滤出有用的信息。在此背景下,群组推荐系统应运而生。群组推荐系统可以帮助用户发现有价值的群组信息,节约用户时间,提高用户对网站的满意度,从而吸引更多用户加入网站,实现服务提供商与用户的双赢。由于上述原因,群组推荐系统近年来成为工业界和学术界共同关注的研究热点。本文主要以社会化标注系统中的典型代表-Flickr为例,介绍我们在群组推荐方面的研究工作。尽管本文提出的方法都是基于:图片共享网站,但这些方法均可以推广到任意具有群组信息的社会化标注系统中。

 

1.2研究现状

对Flickr组推荐的研究,主要有两类研究方向:一类是为用户推荐组的研究;另一类是为图片推荐组的研究。据我们所知,目前网站只能为还没有加入任何组的用户推荐组,一旦用户加入某个组,将不再为其推荐。此外,网站还不能为用户的图片推荐组。

现有为Flickr用户推荐组的研究主要有其中文献分析了中用户、标签和组之间的三元关系,提出了一种基于非负张量分解的组推荐模型,并通过大量的实验比较了七种基于协同过滤的推荐算法在为用户推荐组时的性能。七种算法其中包含三种基于记忆的协同过滤推荐算法和四种基于模型的协同过滤推荐算法。实验结果表明,基于模型的算法比基于记忆的算法在平价标准下取得了更好的推荐效果,特别是添加了标签信息的模型对稀疏数据集有更好的效果。文献在前面工作的基础上,提出了一种集成用户链接关系、用户参与的组和组内标签信息的Flickr组推荐模型,并基于该模型设计了一个组推荐系统,方便用户搜寻其感兴趣的组。该模型基于概率矩阵分解的方法,具有较低的复杂度。文献认为尽管用户和组是完全不同的两个概念,但是他们都可以利用概率主题模型,通过描述他们具有的标签集合来表示,这样就可以将用户和组进行直接比较,为用户推荐与其具有相似主题的组。为此他们提出了一个基于主题的方法来表示Flickr用户和组,并且开发了为用户推荐组的Web应用。类似于文献文献认为用户和被推荐的组之间应该在很大程度上具有相同的隐含兴趣,这些兴趣可以通过挖掘社会媒体网络中各种元数据信息以及用户共享到组中的图片获得。但与文献不同的是,他们没有首先描述用户和组的特性,然后再生成组推荐函数,而是提出了一个社会主题模型在发现用户和组隐含兴趣的同时学习了组推荐函数,并通过实验证明了该方法比现有方法取得了更精确的推荐结果。

为图片推荐组的研宄开始于文献,文中提出了一个名SheeoDog为的推荐系统,首先利用支持向量机为每个预设概念训练一个基于概率的模型,训练模型时使用了训练集中图片的视觉特征;然后利用训练好的模型预测每个测试图片的概念;最后在预测结果中选择前《个概念作为关键词在中查找相关组。文献,将组推荐问题转化为组分类问题,通过挖掘个人相册集合来推荐组。首先利用SimRank算法计算组之间的相似性,使用谱聚类算法将组聚类为几个簇;然后基于族内图片的视觉特征和标签信息,利用支持向量机为每个族训练一个分类主题模型预测图片的主题;最后,在用户的相册集合中,利用基于稀疏图传递的方法改进图片的预测结果。文献改进了文献的工作,提出了一种半自动的组推荐方法,首先利用预先训练好的分类模型为每幅图片预测组,然后从中选择一部分图片及其预测组作为初始推荐结果呈现给用户,由用户修改错误的预测;最后根据用户反馈调整推荐结果。

 

第2章基本知识

 

本章主要介绍在社会化标注系统中进行群组推荐方法研宄时用到的关键知识和技术,是后面三章工作的基础。

 

2.1社会化标注系统

社会化标注是用户根据自己的兴趣,为共享资源标注个性化标签,以便于日后重新浏览或检索。与传统标注仅仅将标注信息存储在用户的终端计算机不同,社会化标注将标注信息通过一个开放的平台进行在线的存储和管理,实现了标注信息在用户间的共享。这种开放、共享的资源管理模式引起了产业界的极大兴趣,出现了大量社会化标注系统,如共享图片,共享视频,共享网页等。社会化标注系统通过一个开放的平台,提供资源管理、共享和收藏等服务,其中大多数系统还提供了社区化功能,即具有相同兴趣的用户可以自由组织群组,以满足用户社交和兴趣分享等需求。

 

2.2推荐算法

信息技术Web 2.0技术的快速发展,将人们从信息匮乏的时代带入了信息过载的时代。网络资源爆炸式增长,使信息提供者和用户均面临巨大挑战。一方面,用户很难找到自己需要的信息,有时甚至无法正确描述自己需要的信息;而另一方面,对于信息发布者,如何让自己发布的信息受到更多的关注也是亟待解决的问题。为此推荐系统应运而生,其核心是利用推荐算法处理海量的信息,将信息的使用者和发布者建立关联,达到共臝。

2.2.1基于内容的推荐算法

基于内容的推荐算法通过分析用户过去喜欢的资源与待推荐资源之间的相似性,为用户推荐资源。这种方法通常利用用户过去喜欢的资源的属性,通过机器学习方法对用户兴趣建模,然后比较用户兴趣模型与待推荐资源的属性,为用户推荐最相关的资源。基于内容的推荐算法一般包括三个步骤:

(1)资源描述

资源常常通过属性来描述,属性分为结构化属性和非结构化属性。结构化属性是意义比较明确且有确定取值范围的属性,一般可以直接使用。而非结构化属性往往意义不明确,无确定取值范围,无法直接使用。在实际应用中,对于非结构化属性需要转化为结构化属性,常用的转化方法为文献提出的空间向量模型。

(2)用户兴趣建模

利用用户过去喜欢的资源的属性,通过机器学习方法学习用户的喜好特征,为用户的兴趣建模。若用户己经对一些资源给出了他的喜好判断,这一步主要是根据用户对资源已有的判断为用户兴趣建模,根据兴趣模型判断用户是否会喜欢新的资源。现有大多数研究将推荐问题转化为分类问题,利用经典的分类模型建模用户的兴趣,主要使用的分类模型及方法有:最近邻方法、决策树、基于规则的分类器、朴素贝叶斯和支持向量机等。

 

第3章利用四元语义分析为Flickr用户推荐组......26

3.1引言......26

3.2基于稀疏编码和空间金字塔匹配的图像分类方法.......29

3.2.1视觉词袋模型.....30

第4章利用四元语义分析为Flickr图片推荐组......48

4.1引言......48

4.2四阶张量分解算法.......49

第5章基于四元语义分析的Flickr组推荐统一框架.......60

5.1引言......60

5.2Flickr组推荐统一框架....62


第5章基于四元语义分析的Flickr组推荐统一框架


5.1引言

现有的Flickr组推荐方法只能单独为用户或图片推荐组,目前还没有一种方法可以将两种推荐功能集成在一个统一框架中,实现为图片推荐组的同时为用户推荐其可能感兴趣的组。同时为用户和图片推荐组,一方面,可以满足用户多元化的需求,使用户即找到了适合分享图片的组又找到了自己可能感兴趣的组,为用户提供了便利。另一方面,对于服务提供商,将用户可能感兴趣的组信息展示在用户的面前,提高了用户体验,可以吸引更多的用户加入Flickr以及Flickr组。

本章在前面两章研宄的基础上,建立了基于四元语义分析的组推荐统一框架,实现了为图片推荐组的同时为用户推荐组。该框架将用户、标签、图片和组信息集成在一个四阶张量模型中,使用四阶张量分解算法挖掘四种实体之间隐含的语义关系。通过隐含语义关系的挖掘可以同时提高为用户推荐组以及为图片推荐组的准确性。

 

5.2Flickr组推荐统一框架

构建Flickr组推荐统一框架需要两步。第一步,建立统一框架;第二步,生成推荐结果。下面就分这两部分来介绍组推荐统一框架。


第6章总结与展望

 

本章将对论文的主要研究内容、创新点进行全面的总结,并根据本文在写作过程中遇到的问题和挑战,对未来的研宄工作进行展望。

 

6.1主要工作总结

社会化标注系统是目前Web资源管理和共享的主要方式之一,本文主要以社会化标注系统的典型代表图片共享网站为例,介绍在组推荐方面的主要研究。

Flickr允许用户上传图片,为图片添加标签并将图片分享到一个或多个兴趣组中。用户、标签、图片和组是中主要的四个实体,它们之间相互关联。本文在分析Flickr中用户、标签、图片和组之间四元关系的基础上,提出了基于四元语义分析的Flickr组推荐模型,并利用该模型主要完成了以下工作:

(1)利于四元语义分析为Flickr用户推荐组。本文分别通过具体实例和实验证明了现有研究仅仅利用用户、标签和组三元关系不能精确为用户推荐组的问题。并在分析三元关系存在的问题和不足的基础上,首次将四元语义分析引入到Flickr组推荐领域,提出了一种利用四元语义分析为用户推荐组的方法,利用四阶张量建模Flickr中用户、标签、图片类和组之间的四元关系,通过高阶奇异值分解技术挖掘用户和组之间潜在的语义关系,得到为用户推荐的组列表。本文提出的方法在现有三元语义分析研宄的基础上添加了图片信息,考虑了图片丰富的视觉特征,解决了现有研究仅仅使用标签信息不能精确描述用户和组之间语义关系的问题。通过在数据集上的实验证明了本文提出的方法比现有的基于三元语义分析的组推荐方法,在和评价标准下取得了更精确的推荐结果。此外,在对图片分类时,提出了一种基于稀疏编码的改进的空间金字塔匹配方法,为空间金字塔中不同层次的图像的稀疏编码值赋予不同的权重,设计了一种新的空间金字塔匹配核,在及数据集上的实验证明,新的空间金字塔匹配核函数在分类准确率上优于己有的基于空间金字塔匹配的方法。特别是在支持向量机分类前对特征向量的降维操作使新的核函数的分类准确率进一步提升,而且大大减少了核运算的时间。

(2)利用四元语义分析为Flickr图片推荐组。本文针对现有研究利用基于内容的推荐算法在为图片推荐组时没有考虑用户兴趣的问题,提出了基于四阶张量分解的Flickr组推荐算法,将用户的兴趣信息引入到推荐模型中,利用基于协同过滤的推荐算法为用户推荐组。该算法利用四阶张量建模图片、用户、标签和组之间的四元关系,利用高阶奇异值分解和kemel-SVD技术挖掘用户潜在的兴趣信息以及图片和组之间潜在的语义关系,为图片推荐满足用户兴趣需要的组。此外,本文还通过kemel-SVD技术和增量更新模型的方法解决了基于协同过滤的推荐算法普遍存在的稀疏性和可扩展性问题。通过在Flickr数据集上的实验证明了本文提出的方法相比现有的基于内容的组推荐方法推荐结果的MAP值有大幅提升。

参考文献(略)


如需定做,博士论文请联系我们专家定制团队,QQ337068431,热线咨询电话:021-62170626
分享到: