本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
在我们的跨语言话题检测与跟踪研究中涉及了自然语言处理中的信息抽取,信息检索中的文档表示和主题建模,机器学习中的模型训练方法,以及数据挖掘中的文本流挖掘等相关技术和理论。各种理论技术在本研究中的实践,将会为我们对理论的适用范围和算法改进等提供一个更深层次的理解,并从一定意义上,促进相关理论的发展。
本文是博士毕业论文,主要研究英、汉跨语言话题检测与跟踪技术。
第一章绪论
第一节研究背景
1.1.1本研究的缘起
当今世界已经逐步迈入信息化和数字化时代。计算机硬件和软件技术的高速发展给时代的变迁奠定了坚实的基础。在科学技术的推动下,互联网从萌芽到普及,在较短的时间内,其触角已经延伸到各行各业,惠及普罗大众。通过网络传播信息已成为当今媒体变革和发展的趋势,通过社交网络联络交友也成为民众生活的时尚。在中国,从互联网获取网络新闻的用户已达到39231.7万人美国皮尤研究中心的报告?指出,互联网己经成为仅次于电视的第二大新闻来源,美国人使用电脑或手机利用互联网阅读新闻资讯。相比之下,传统的广播、报纸只位居第三、四位。不同于从传统的报纸、广播、电视上获取信息,人们日渐趋向于从网络上汲取自己想要的内容。近年来,Facebook、Twitter、Linkedin等等社交媒体的出现和兴盛更是改变了网络发展的方向。普通民众也成为了信息制造和传播的主力。在此过程中,社会生活中的一个又一个热门话题以更加迅猛的速度在网络媒体中扩散开来。但是对于个人用户而言,如何在海量的网络文本中找到自己感兴趣或者想要参与的话题?同时,信息服务提供者又如何通过人性化人机交互把社会热点话题或用户感兴趣的话题推送到信息终端,即个人手中?类似的新的需求促使相应的实用语言处理技术不断涌现和蓬勃发展。快速而准确地发现网络新话题,并且对其进行跟踪和分析,已经逐渐成为当今国内外学者研究的兴趣之所在。
1.1.1.2跨语言新闻话题检测跟踪是领域研究热点
经济全球化的浪潮把各个国家和民族的经济和社会紧密联系在一起,国家和民族之间的交往越来越频繁,互联网已经不仅局限于本民族和本国内的普及和使用。全世界的人们己经通过网络进行大量的商业贸易、教育咨询和信息获取等等活动。随着时代的发展以及人际交往的日渐频繁,人们逐渐不再满足于从自身的民族文化、情感、习惯等角度来看待事物;在理解新闻事件的发展和变化时,人们希望从其他途径了解在其他国家和民族发生的相似事件。一方面,获取类似新闻报道的最便捷和有效的方法当然是通过网络检索。另外一方面,在这一检索过程中,人们尤其希望通过个人独立的思维运作,从其他语言的新闻或文本中获取未被误导的信息。因此,跨越语言的鸿沟获取相关的网络信息也越来越成为个人乃至一个国家了解和掌握更大范围信息的重要手段。通过计算机自动地发现当前各种语言对相关事件的报道,并且在多语言环境中对新闻报道进行检测和跟踪,逐渐成为信息检索和自然语言处理的热点问题。
1.1.2目前研究的局限
话题检测与跟踪研究经过几十年的发展逐渐从以特定事件为对象转向对开放领域的事件的处理;研究中所要处理的数据获取也从单文档转向多文档;处理的文本语言从单语言发展到多语言;针对的数据格式从结构化的数据到非结构化、半结构化的数据。尽管经过多年的研究和探索,关于话题检测与跟踪的研究硕果累累,但是目前对话题检测和跟踪的研究还存在一定的局限性,主要表现在以下四个方面:
1.1.2.1网络新闻报道文本描述字段匿乏
已有的研究中对网络新闻报道的描述缺乏有效的手段,对文本的特征的表示方法都比较单一。现阶段主要还是采用基于向量空间模型,其他如语言模型等方法还处于探索阶段。语言学的词汇、句法、语义和语用理论在文本描述方法研究上所起的作用很小。主流的技术手段偏向于统计方法,结合少量的规则,系统所加入的规则方法还很单一,处于较浅的层次。
1.1.2.2自然语言处理技术缺乏有效应用
多年来在自然语言处理领域积累的技术在话题检测和话题跟踪研究上缺乏有效地应用。自然语言处理领域中发展的浅层句法分析技术和深层句法分析技术仍然不能较好的结合新闻报道进行文本内容分析,如何结合命名实体识别技术,提高话题检测与跟踪的效果,还处于不断的实验和改进过程中。
第二章跨语言TDT研究中新闻报道文本描述方法探讨
第一节引言
在流通和传播中,新闻具有三种外在形式:文本、语音和视频每种形式也可以看做是人类语言的一种外在表达方式。因此,一个人确切地理解某个新闻的内涵实际上需要具备语言能力和语言行为。因此,如果要求计算机模拟人脑来理解新闻的内容,需要其拥有与之相似的自然语言理解能力。然而从当前自然语言处理技术发展所处的水平看,要利用计算机从新闻内容理解角度对不同新闻报道之间的差异进行对比还是一项难以完成的任务。在本文第一章中,我们详细描述了本研究的研究内容和研究方法,明确了对多语言环境下新闻报道的话题进行检测和跟踪的研究目的。对新闻文本进行准确的描述,是实现这一研究目的基础。通常情况下,用计算机处理和分析多语言环境下的新闻报道必须同时满足以下三个条件:1)需要多语言新闻报道的输入和存储以一种计算机能够“理解”的方式进 ’行;2)多语言新闻报道数字化后能够尽量保留各自语言环境下新闻的核心内容和意义;3)多语言新闻报道文本描述方式要便于我们进行跨语言TDT研究。因此,本章我们将对新闻报道的本质因素进行研究和分析,从语言感知新闻含义和新闻本身特性这两个角度来分析新闻报道的核心要素。通过这些分析,提炼出多语言新闻报道文本中表达内容和含义的关键成分,研究它们是否能够构成新闻报道文本的区别性特征。另外,我们还将引入模式识别方法对这些文本特征进行抽取,并对适合本研究的命名实体识别方法进行实验和评测。
第三章跨语言环境下新闻报道文本......... 41
第—节引言 ........ 41
第二节CLTDT新闻报道模型构建的思路........ 42
3.2.1信息检索相关概念........ 42
3.2.2 “报道-话题-事件”之间的关系........ 43
第三节文本表示模型........ 44
第四节CLTDT英汉新闻报道文本描述........ 55
本章小结........64
第四章CLTDT研究中语料库构建方法........65
第一节语料库概说........ 65
4.1.1语料库的概念........ 65
4.1.2语料库研究动态........ 66
第二节跨语言TDT语料库的构建........ 68
第三节CLTDT研究的评测策略........ 77
第五章跨语言话题检测方法研究........ 80
第一节引言........ 80
第二节CLTDT话题检测的任务和流程........ 80
5.2.1 CLTDT话题检测的任务........ 80
5.2.2 CLTDT话题检测的流程........ 83
第三节CLTDT话题检测方法 ........84
第四节CLTDT话题模型........ 88
第五节CLTDT的话题检测........ 92
本章小结........ 98
结论
本文在传统话题检测与跟踪研究的基础上,把视角扩展到跨语言话题检测与跟踪上。通过对跨语言TDT研究中所涉及的新闻报道文本描述方法进行分析,提出在英、汉跨语言环境下新闻报道文本模型构建的思路,并在分析己有研究成果基础上,提出了对英、汉跨语言话题进行检测和跟踪的具体研究方法。主要研究结论包括:
首先,本文建立了英汉双语跨语言可比语料库,并将其作为先验知识源融入到跨语言话题模型的构建中,替代TDT机器翻译和词典翻译方法,作为本论文的研究基础。
第二,在可比数据库基础上,本文分析和研究了当前主流的文本描述模型,在对他们的优缺点进行分析后,结合本文研究目的,认为应该使用LDA模型来对新闻报道中潜在话题进行描述,这样做既符合新闻报道自身特点,又有助于对大规模新闻语料进行语义提炼。
第三,本文将LDA模型特点与跨语言新闻报道话题检测研究相结合,提出跨语言联合LDA模型。实验结果验证,这套模型在可比语料库上能够实现对英、汉新闻报道中同话题以及新增话题进行检测的目的。
本文最后采用跨语言联合LDA模型对英汉新闻报道进行了跟踪实验,结果显示随着报道样本数量的增多,系统识别率也逐步提高。除此之外,跨语言联合LDA模型还能对英汉语言环境下特定新闻事件的发展趋势进行描述。
参考文献
[1] Aggarwal C C. Mining text data [M]_ Springer Science+ Business Media, 2012,pp. 147
[2] Allan J,Carbonell J G,Doddington G,et al. Topic Detection and Tracking PilotStudy: Final Report [C]. Published in proceedings of DARPA broadcast newstranscription and understanding workshop, 1998,pp. 194-218.
[3] Allan J, Lavrenko V3 Jin H. First story detection in tdt is hard [C]. Washington DC.Published in Proceedings of the Ninth International Conference on Informationand Knowledge Management 2000,pp.374-381.
[4] Allan J, Lavrenko V,Malin D, et al. Detections, bounds, and timelines: UMass andTDT-3 [C]. Published in Proceedings of Topic Detection and Tracking Workshop,Vienna,VA,2000, pp. 167—174.
[5] Allan J,Papka R, Lavrenko V. On-line new event detection and tracking[C].Published in Proceedings of the 21st annual international ACM SIGIR conferenceon Research and development in information retrieval. ACM, 1998, pp. 37-45.
[6] AlSumait L,Barbara D, Domeniconi C. On-line LDA: adaptive topic models formining text streams with applications to topic detection and tracking[C]. DataMining, 2008. ICDM'08. Eighth IEEE International Conference on. IEEE, 2008:3-12.
[7] Bekkerman R,McCallum A. Disambiguating web appearances of people in asocial network[C]. Proceedings of the 14th international conference on WorldWide Web. ACM, 2005: 463-470.
[8] Berger AL, Pietra V J D, Pietra S AD. A maximum entropy approach to naturallanguage processing[J]. Computational linguistics,1996,22(1): 39-71.
[9] Blei D M, Jordan M I. Modeling annotated data [C]_ Published in Proceedings ofthe 26th annual international ACM SIGIR conference on Research anddevelopment in information retrieval. ACM, 2003, pp. 127-134.
[10] Blei D M,LafFerty J. A correlated topic model of Science [J]. Annals of AppliedStatistics, 2007,1(1),pp. 17-35.
