基于商务智能的流程测评体制中的研究与设计 - 蜂朝网
服务电话:021-62170626

基于商务智能的流程测评体制中的研究与设计

时间: 2014-10-22 编号:sb201410221169 作者:蜂朝网
类别:在职硕士论文 行业: 字数:25511 点击量:723
类型: 收费    费用: 0元

本站提供专业的[留学生论文]定制业务,如需服务请点击这里给我发消息,联系电话:13671516250.

文章摘要:
本文是在职硕士论文,本文通过对基于商务智能的流程评估系统的详细描述,明确了ETL对流程数据的转换目标。搭建了基于CWM标准的ETL模型,并针对该模型的详细介绍了对异构的数据源中的流程数据的抽取。通过分析流程数据中的错误数据和不一致数据的类型和成因,制定了适用于流程数据的转换规则,并给出了适用与流程数据转换的转换架构。

第1章绪论

 

1.1课题背景

商务智能,简而言之就是一系列能够帮助企业对自身业务做出正确的决策的定义、方法和工具。它是现代企业实现信息化的关键环节,是企业改善战略决策水平,提升企业绩效,提高核心竞争能力的重要手段。因此在世界范围引起大企业的广泛关注,并产生了巨大的市场。根据市场研究公司IDC全球半年商务智能工具跟踪报告称,仅2010年下半年全球商务智能工具市场收入超过了20亿美元。2010年全年全球商务智能工具市场收入增长12.7%,比2009年增加了8.93亿美元。而我国的商务智能的市场起步较西方市场较晚,但近年来也得到长足的发展,在2010年的中国商务智能市场总规模已超过20亿人民币,年均市场增长率远远超过世界市场的平均增长率。

商务智能的概念最早是被加特纳集团在1996年提出来的,他们给出的商务智能的定义是:“商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。”当时认为商业智能就是由数据仓库或数据集市)、查询报表、联机分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业决策为目的的技术及其应用。而后随着商务环境的变迁和技术的进步,人们对于BI有了更多和更深的认识。2007年3月,Gartner商务智能峰会重新定义为分析应用(工具)、基础架构和平台以及良好的实践(模型)。商务智能的发展呈现出“从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效”的发展特点。现如今,人们对BI已经有了更加全面的理解,商务智能是先进的信息技术与新式的管理理念的有机结合,它不仅是技术、应用和工具,更是先进的管理理念,它是现代企业通过企业对内部和外部信息的收集,利用数据挖掘、OLTP等手段,发现知识,进而采取有效的企业活动,提高企业效益的方法、工具的集合。

随着企业信息化的发展,流程成为了企业中必不可少的存在,生产流程、客户服务流程、销售流程等等。随着企业的成长,业务的增长,流程逐渐增多,管理流程的难度随之增加。残缺、散乱、僵化、低效的流程成为制约企业发展的重要因素。利用商务智能的手段,实现流程的再造与优化,成为现代企业实现自身发展,提高核心竞争力的必要手段。

 

1.2相关工作

数据仓库是业务流程智能系统的数据中心,它的建设的好坏直接关系到流程评估系统的评估质量,并最终影响决策支持系统的决策质量。但是数据仓库具有一个先天缺陷,那就是它是从业务系统发展来的,而它又决定着商务智能系统的最终决策水平。ETL成为数据仓库系统建设过程中的重中之重,有分析机构指出这个过程的时间和资金的花费甚至达到60%-80%;因此为了更好的发挥数据仓库的作用,绝大多数的数据仓库厂商都建立了自己的ETL系统,这些系统已经相当成熟,这些ETL工具总结起来普遍具有几个功能:1)识别不同种类的数据源,2)全量和增量抽取数据,3)定义数据转换规则,4)有自己的活动模型,控制的逻辑流程;5)任务调度、ETL过程质量监控、ETL过程中的异常报告,6)部分工具还具有根据具体的业务规则清洗数据,提高数据质量的作用。

国内外针对ETL活动的研究已经有很多,主要有包括ETL过程的建模、提高ETL过程的数据质量以及ETL的处理效率、降低ETL过程的开发的维护成本等等。其中ETL的建模主要分为概念模型和逻辑模型,文献介绍了从ETL的概念模型到逻辑模型的映射。基于图对ETL系统中的数据抽取、转换、加载的过程以及源数据、目标数据进行了语义描述。ETL过程的逻辑模型可以详细的划分为元模型、模板以及模式三个层次。

数据转换是个广义的定义,包括数据的清洗、数据格式的转换、数据的聚集等等,它是过程的核心,决定着最终数据仓库中的数据质量。数据清洗的主要研究集中于错误数据的检测和清理以及重复数据一致化处理两个方面,中分析了“脏数据”产生的原因,详细的介绍了针对不同的“脏数据”的数据清洗技术。文献将数据质量问题分为四个类型,针对不同种类的数据质量问题分别给出了详细的解释和解决办法,并分别的介绍了聚类、统计分析、基于模式、关联规则的方法解决数据质量问题。中给出了针对数据质量问题的聚类算法,及其改进算法。数据转换规则对数据转换来说是至关重要的,规则的合理性直接决定数据转换的质量。给出了ETL的通用数据转换规则,并基于XML的形式对转换规则进行了描述。

 

第2章基于商务智能的流程评估系统

 

2.1基于商务智能的流程评估系统架构

基于商务智能的流程评估系统是通过将分布于异构数据源中的流程事物日志,清洗转换加载到一个流程数据仓库中,以流程挖掘等手段,对发生在过去的流程的或高或低质量的执行情况进行分析,并做出量化评估,进而实现流程的优化与再造,同时对流程挖掘的结果以及新设定流程的再评估,最终为企业决者提供决策支持的系统。

基于商务智能的流程评估系统的架构如图2-1所示,主要包括ETL系统:

\"\\"\\"\"

数据仓库系统、数据挖掘引擎、流程评估系统。本节将针对各自的特点进行简要的描述和分析。

2.1.1ETL系统

数据抽取、转换、加载(ETL)是业务系统与流程仓库的桥梁,是流程仓库构建过程中数据质量与构建过程效率的重要保证,是数据应用于评估系统前必须经过的加工过程,ETL系统如图2-2所示,主要包括抽取模块,转换模块,加载模块,调度模块。

1)抽取模块:这个模块主要是将存储于异构数据源中的流程数据抽取并汇总合并到一个中间数据库中。它通常有两个任务。第一,完成从分布式数据源中抽取流程日志将这些流程日志汇总并初步合并;第二,识别异构的数据并将非结构式数据源中数据抽取出来。数据抽取通常分为数据仓库初建时的全量抽取,以及后来的按照某一时间的增量抽取如按天或按周抽取。

\"\\"\\"\"

 

 

2.2流程仓库

 

流程仓库是应用于商务智能领域,存储大量的业务流程数据的数据仓库。通过从很多商务智能系统中抽取转换过来的大量流程数据,为流程评估系统提供数据支持。

2.2.1流程日志

商务智能系统在应用过程中记录了许多类型的事件,包括整个流程以及每个活动的开始、结束时间戳,执行流程的需要,结束流程的输出,以及流程在执行过程中的成功与失败的情况等等,这些就是流程事物日志。

流程日志是大量的无序的流程信息的集合。它是ETL任务的工作对象。通过ETL将他们变成面向主题的、有序的信息集合存储到流程仓库中。流程日志分为结构化的与非结构化的。本文直接采用的是结构化的数据,对非结构化的流程日志的结构化,本文默认已经实现。

流程日志的记录方式有很多种,本文采用基于的标准事件日志的方式进行记录,方便以后的流程评估工作。表1为保险行业中的一个典型的流程日志,其中记录了流程实例、险种、时间戳、事件、活动、参保人、受理人等等。

\"\\"\\"\"

2.2.2流程仓库模型

流程仓库实际是数据仓库在商务智能领域的实际应用,是一个存储大量面向主题的流程数据的数据集合。主要的存储类型有星型结构、雪花型结构、事实星座型结构。本文图2-5为雪花型存储结构的面向评估的流程仓库模型。模型由唯一一个事实表,以及时间、质量、效能、活动、花费等维表组成,很好的为后续的流程挖掘以及流程评估工作提供了高效的数据支持。

\"\\"\\"\"

 

第3章基于流程数据的ETL的研究与设计.......15

3.1基于CWM标准的ETL框架模型.......15

3.2异构的数据源中流程数据的抽取.........17

3.3ETL中数据转换的实现........18

第4章基于商务智能的流程评估系统中ETL的实现与应用.......28

4.1客户需求分析........28

4.2基于CWM标准的ETL框架的实现.......29

 

第4章基于商务智能的流程评估系统中ETL的实现与应用

 

本章主要讨论ETL在基于商务智能系统中的应用,结合保险行业的实际情况,从ETL工程旳创建开始,到基于商务智能的流程评估系统中的ETL实现,通过开源数据加以验证。


4.1客户需求分析

客户需求分析ETL是创建之初必须高度重视的问题,本文中采用的是保险行业的流程数据作为ETL的数据源,结合基于商务智能的流程评估系统的实际情况,总结了企业的实际需求:

1)企业希望评估系统能够按照决策者需要进行对流程的各个角度对流程进行评估。

2)企业希望数据仓库中的流程数据能够包含各种格式的企业内部和外部数据。例如,企业的经营数据、遗留系统中历史数据、现行系统中的历史数据、各类元数据、数据及国家对企业的相关政治和经济数据等等。

企业现有数据的实际情况:

1)保险行业的业务具有多样性的特点,不同的业务有着不同的数据集合。因此同一客户的信息需要对应不同的业务领域,且不同的业务领域关注的客户信息的侧重点也不尽相同。例如车险关注的是客户的收入情况、消费能力等,而人身保险则关注客户的健康情况和遗传病情况。寿险则关注客户的年龄、健康等信息。

2)保险行业现行的销售模式决定众多的潜在客户信息分散存在于各个销售网点的系统中,并且这些数据多数是重复数据和不一致的数据。

3)保险行业作为国内最早使用商务智能系统的企业之一,企业的数据基本上都实现了结构化,存在为数不多的手工数据。

参考文献(略)


如需定做,在职硕士论文请联系我们专家定制团队,QQ337068431,热线咨询电话:021-62170626
分享到: