本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
本文是博士论文,本文对半监督中两个经典算法(自学习,协同训练)进行了改进研究,将图方法引入到算法的迭代过程中,利用样本流形特性来辅助学习机的优化,然后提出了一种能够适用于带噪声训练集的直推式图方法来解决半监督弱标记的混合多标记学习问题。
第1章 绪论
1.1研究的背景及意义
学习是人类的天性,人类进步的阶梯。机器学习则是研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[1]。机器学的习不仅是人工智能的一个核心研究领域,而且已成为整个计算机领域中最活跃、应用潜力最明显领域之一,扮演着日益重要的角色。“计算机利用经验改善系统自身性能的行为”,这是机器学习大师TomMitchell在“Machine Learning”经典教科书中对机器学习的定义[2]。机器学习的成败关键在于是否能获得足够多的“经验”。在目前应用最为广泛的机器学习方法——统计机器学习中,“经验”指的是具有概念标记的训练样本。传统的监督学习需要大量的有标记训练样本来泛化学习机性能,使学习机模型尽可能地逼近目标概念(target concept)[3](图1-1为对传统监督学习模型的简单描述)。随着数据收集和存储技术的飞速发展,收集大量无标记样本已相当容易,而获取大量标记样本则非常困难,因为需要专家(oracle)进行人工标注,代价非常高[4]。比如在进行Web网页推荐时,需要用户标出哪些网页是他感兴趣的,很少会有用户愿意花大量时间来提供标记,因此标记网页样本较少。相反,大量的无标记网页容易获取,因此在有标记样本较少时,如何利用大量无标记样本提高学习性能已经成为当前机器学习研究中最受关注的问题之一[4]。正因如此,半监督学习范式应运而生。一般认为,半监督学习的研究始于上世纪90年底(Shahshahani的工作)[5]。在半监督学习中,学习机试图自行利用无标记样本,即整个学习过程不需人工干预,仅基于学习机自身对未标记样本进行利用。经过近20年的发展,半监督学习范式逐渐成熟,涌现出大量的半监督学习方法,广泛应用于互联网服务[6][7]、自然语言处理[8][9]、生物信息[10][11]和计算机辅助医疗诊断[12][13]等多个领域,取得了不少令人瞩目的成绩。
…………
1.2弱监督学习研究现状分析
早期的模式识别和机器学习研究主要集中在有明确类别信息的监督学习和完全没有类别信息的无监督学习。近年来随着机器学习方法应用领域的扩展,各种具有弱监督性质的学习问题引起了研究者广泛的关注,其中包括半监督学习、多示例学习、多标签学习以及一些更为复杂的混合学习问题。下文分别对这些学习问题进行逐一介绍。半监督样本中少部分是有监督样本,而多数为无监督样本。最简单的半监督学习方法采用的是自学习(self-training)[25],首先使用监督样本学习一个初始的分类器用于标注无监督样本,然后将标注后的无标注样本连同监督样本一起学习最终的分类器。Self-training可以看作是一个正反馈的过程,存在的最大问题是初始分类器的误差会在最终的学习结果中进一步放大,而不是弥补或消除。一般认为,主流的半监督学习算法可大概分为四大类[26]。第一类算法是产生式模型(generative models)。此类算法的通用做法为将无标记样本的类别信息当做缺失参数,采用期望最大化算法(Expectation Maximization,EM)进行分类器模型参数估计以及标记“填充”[27]。自学习实质上是产生式模型EM算法的一种特例[28, 29]。第二类算法是Joachims提出的直推式支撑向量机(TSVM)[30]。
………..
第2章 统一解决复杂弱监督问题的学习框架
2.1引言
传统监督学习需要足够多监督信息明确的对象来保证学习机模型尽可能地接近目标概念(target concept),即需要大量有标记样本来训练好的分类器。然而在现实应用场景中,获取大量的标记样本非常困难,因为标注过程需要付诸专家来实现,消耗大量人力资源和时间。半监督学习范式的产生正是为了缓解标记不足的现状,利用大量的无标记样本来辅助学习性能优化,在减小对样本标记需求量的同时,又能够提高学习机的泛化能力。半监督学习在许多实际应用领域受到广泛关注,有着许多成功应用案例。另外,随着研究的不断深入,又产生了多种新型学习问题:一方面,许多特定的应用问题(例如,多义性图像/文本检索与分类、药物分子活性预测等)催生了多标记学习、多示例学习以及多标记多示例学习等多种新型机器学习范式。这些新型学习范式面对的不再是传统意义上的标记样本(标记与样本一一对应):多标记学习中每个样本对应多个标记,样本与标记为一对多的关系;多示例学习中,样本以包的形式存在,只给出包的标记,样本与标记为多对一的关系;多标记多示例学习中,每个样本包也对应多个标记,因此样本与标记为多对多的关系。相比之下,多标记学习需要处理标记不确定性,而多示例学习需要解决样本不确定性。另一方面,由于互联网共享机制、大众标注应用的发展以及自然语言处理处理技术的日趋成熟,获取大量廉价标记成为可能。

……….
2.2问题描述
首先给出针对不同类型弱监督样本的统一表示,然后给出对样本以及样本集的监督信息强弱的度量方法。图2-1表示弱监督学习关于标记不确定性的图谱。 将监督信息度介于有标记样本和无任何监督信息的无标记样本之间的所有类型的样本(多标记、模糊标记、概率标记、噪声标记等)统称为弱监督样本;标记不确定性熵 H(x) 与监督信息度 DIS(x)成反比关系,熵越大意味着样本监督信息越弱。针对此类弱监督样本的学习问题可统称为弱监督学习。弱监督学习框架不仅能够解决半监督、多标记等现有学习问题,而且能够应对更为复杂的弱监督学习问题,比如混合问题:半监督多标记、半监督模糊标记等。下面将给出两种统一解决复杂弱监督问题的学习框架。
……..
第3章 基于嵌入式流形直推的自适应半监督自学习算法....... 39
3.1引言..... 39
3.2预备知识与算法概要.... 40
3.3基于嵌入式流形直推的自适应自学习算法......... 42
3.4实验验证.... 49
3.5本章小结.... 59
第4章 基于样本条件价值的半监督协同训练算法.... 61
4.1引言..... 61
4.2问题的提出...... 63
4.3 CVCOT算法...... 66
4.4实验结果与分析..... 71
4.5本章小结.... 86
第5章 针对弱标记的直推式多标记图方法....... 88
5.1引言..... 88
5.2相关工作.... 89
5.3多标记学习性能评价指标......... 94
5.4所提算法.... 96
5.5实验..... 102
5.6本章小结.... 110
第5章 针对弱标记的直推式多标记图方法
5.1引言
传统有监督学习面对具备明确、单一语义的对象,即假设所有样本仅具有唯一的标记。然而,在许多真实世界的应用中,学习对象往往不只具有唯一的语义,可能具有多义性,样本可能同时隶属于多个类别:比如,在图像标注问题中,一幅图片可能对应多个标签(tag),如“乡村”、“道路”和“建筑”等,这些标签在不同角度描述这幅图片的内容;在功能基因组学中,一段基因可能同时具备多种功能如新陈代谢、蛋白质合成以及RNA转录;在文档分类问题中,一篇文档可能同时对应“经济”、“政治”等多个主题。对于上述多义性对象学习问题,每个样本均对应一组概念标记,通过对多标记样本构成的训练集进行学习,可以预测未知样本的概念标记集合。由于传统监督学习框架无法适用于此类多标记学习问题,多标记学习(multi-label learning)框架,作为一种多义性对象学习建模工具,由此应运而生。在该框架下,每个对象由一个样本描述,该样本具有多个类别标记,学习的目标是将所有合适的类别标记赋予未见样本。多标记学习从最初的文本分类应用已经逐渐扩展到多媒体内容自动标注、生物信息、web挖掘、个性化推荐等多个领域,产生了许多成熟的研究成果。
……….
结 论
弱监督学习问题广泛存在于各种现实生活的应用中,一直以来都是机器学习领域的一个热点研究课题。弱监督样本的引入可以在不增加人工标注工作量的条件下,扩大学习样本集合,提高模型的泛化能力。现有的弱监督学习算法大多是针对特定学习问题提出的,仅适用于特定的学习场景,缺乏统一的学习框架。将所有具有弱监督性质的学习问题作为一个整体来研究,致力于建立可以综合应用各种弱监督信息,适用于复杂弱监督学习场景的学习框架,能够将各种弱监督问题、混合弱监督问题纳入到该框架下求解。本文以图方法作为主要技术手段,采取图方法与现有学习算法相结合的策略,对半监督、多标记以及混合弱监督学习问题进行深入的研究。
…………
参考文献(略)
