高速公路联网收费数据仓库设计
刘莉
【摘 要】针对高速公路收费的特点,研究了高速公路收费系统的数据构成,分析了数据之间的关系,并且对数据仓库建模设计的方法与步骤进行了理论研究.
【期刊名称】《交通科技》
【年(卷),期】2012(000)005
【总页数】3页(P115-117)
【关键词】数据仓库;高速公路收费系统;数据仓库建模
【作 者】刘莉
【作者单位】贵州交通职业技术学院 贵阳 550001
【正文语种】中 文
暴利行业随着高速公路联网规模的不断扩大,通车里程的不断增加,交通信息来源越来越广泛,表现形式也越来越多样,而传统的基于数据库的决策支持系统难以支持日益膨胀的海量信息分析。如何利用先进的计算机信息技术处理巨大的信息量,有效地管理和利用这些数据成为高速公路运营管理的一个重要课题。数据仓库技术具有能够把各种信息资源集中起来,提供一种便捷工具,提供更好的分析智能,建立开放可更改的数据系统结构等优点。在高速公路收费系统中引入数据仓库技术,能够对基础数据进行提取、转换、装载、存储管理/联机分析等过程,提供高层次的数据分析功能,出海量信息背后隐藏的规则和模式,提高高速公路的综合管理效率。
1 联网收费数据仓库的主题及数据准备
按照高速公路收费数据仓库的特点界定边界,结合应用系统及其数据的调研与数据分析的结果,交通管理层需要分析的主题可以分为收费站流量、车辆类型、车辆种类、通行费收入、计重货车流量及计重货车通行费等[1]。
(1)收费站流量。主要收集各个收费车辆情况相关的信息,包括收费站的基本信息及时间、车辆类型、车辆种类、费额、费额统计、入口车辆统计、出口车辆统计等信息。
演员陈数(2)车辆类型。主要收集通行车辆的车型详细情况,包括收费站的基本信息及时间、车型等信息。
清朝皇帝(3)车辆种类。主要收集通行车辆的种类详细情况,包括收费站的基本信息及时间、车辆种类等信息。
(4)通行费收入。主要收集通行车辆的通行费用情况,包括收费站的基本情况及车辆类型、车辆种类、通信费收入、免征费等信息。
(5)计重货车流量。主要收集各个收费车辆情况相关的信息,包括收费站的固有信息及时段、车辆类型、车辆种类、流量统计、载重、入口车辆统计、出口车辆统计等信息。
(6)计重货车通行费。主要收集通行货车车辆的通行费用情况,包括收费站的基本情况及车辆类型、车辆种类、通行费收入、超限费额、载重等信息。
确定了主题域也就确定了主题的范围。接下来需要考虑的问题就是各主题数据之间的关系,从而为系统建立概念模型[2]。
2 概念模型设计
系统的概念模型设计是在主题数据的关系模型基础上进行的,其形成主要是通过E-R模型设计的。下面以收费站流量主题和通行费收入主题为例:
(1)收费站流量。收集各个收费车辆的相关信息,包括收费站的基本信息及时间、车辆类型、车辆种类、入口车辆统计、出口车辆统计等信息。收费站流量E-R图见图1。
(2)通行费收入。主要收集车辆的通行费情况,包括收费站的基本情况及车类型、车种类、通行费收入、免征费等信息。对通行费的分析也是高速公路运营的一个关键。根据高速公路通行费收入的分析,可以细分为:按车类型、车种类、应收金额、实收金额、免收金额等几个方面结合道路运营成本、道路养护的情况进行分析。通行费收入E-R图见图2。
图1 收费站流量E-R图宝宝满月祝酒词
图2 通行费收入E-R图
(3)计重货车通行费。主要收集通行货车车辆的通行费用情况,包括收费站的基本情况及车辆类型、车辆种类、通行费收入、超限费额、载重等信息。
(4)计重货车流量。主要收集有关各个载重车辆的相关信息,包括收费站的固有信息及事段、车类型、流量统计、载重、入口车辆统计、出口车辆统计等信息。
3 逻辑模型设计
数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,就是要把不同主题和“维”的信息映射到数据仓库的具体表中,即每个主题所对应的关系表的关系模式的定义。因此,在数据仓库的设计中采用的逻辑模型就是关系模型。在数据仓库逻辑模型的设计中,常采用的模式有星型模式和雪花模式。这2种模式中数据分为“维表”和“事实表”。事实表是由事务系统中的大量业务数据而来的,它应该含有明显的数度量指标。通常事实表的属性列较少,但是元素行数较多。而维表其实是数据观察角度的描述,维表可以增加非常多的属性列,任何对这个维有意义的描述都可以作为它的属性,维表定义20多列的属性是很常见的,但是它通常行数不多。在2种模式中,雪花模式可以使得表中关系的定义满足更高范式的要求,降低数据冗余度。但这种模式往往使得查询产生更多的连接,让用户使用数据比较困难。因此,根据高速公路收费业务的特点,这里采用的是星型的改进形式,即事实星座模式。事实星座模式以星型模式为基础,以每一个分析主题作为一个事实表,这些事实表共
享一些维度表(如时间维表,车量维表等)。这样可以在不同的事实表之间,通过共享维度来穿透钻取。而在这种模式中,主体是事实表,有关细节则描述在维表内,相比于层次结构复杂的雪花模式,则更适合于数据的分析和统计。因此,从数据仓库设计应满足易使用和高性能这两个基本要求考虑,在高速公路收费数据仓库中,星式结构明显更能满足这种对较高查询效率的需求[3-4]。
在设计了系统数据仓库主题的概念模型后,应该对某一个数据仓库的主题进行逻辑模型设计。它的逻辑模型设计主要进行粒度的选择、数据表的合理划分、关系模式定义、提炼表中数据。
(1)粒度的选择。考虑和车流量对象相关的数据,以及分析本对象的维度。在这个步骤中只是需要确定那些维,而并不用具体地定义维表。经研究,得出需要的维是:时间、收费站、路段、路径、车型、车种、区域。
分析现行事务系统中与车流量对象相关的数据。如果数据量很小,那么可以使用单重粒度。但这种情况是比较少见的,更多的情况是海量的历史数据。高速公路收费系统中存有出/入口流水记录,这种表记录了每辆通行车的各种信息。但是出/入口流水记录的数据
量是特别庞大的,一个区域一年的数据可能有几百G甚至更多,所以使用双重级别的粒度,而高粒度的数据必然会丢失一些信息。如数据的时间精度降低。在系统中,站车流的时间精度为“d”。按这个要求,可以生成轻度综合数量,保存若干年。而事务系统中的原始数据经过清洗后将作为数据仓库的详细数据在线保存一定时间。
表1 车流数据定义路径车流数据区域键<pi> 区域键<pi> 起点区域键<pi>站车流数据 路段车流数据路段键 路段键 路径键<pi>站编键<pi> 站编键<pi> 车型<pi>时间键 时间键<pi> 车种<pi>车型键 车型键<pi> 车量数车种键 车种键<pi> 平均行程时间站名 车流量 ……离开车辆数 ……将使用ETC车道的进入车辆数……金山游侠修改器怎么用
(2)综合考虑维和粒度,确定表结构。虽然都是车流数据,但是站车流数据、路段车流数据和路径车流数据的要求是不同的。如站车流数据的时间精度为“h”,但是路段车流数据和路径车流数据需要的时间精度是“d”。因此不能把所有的车流数据放在一张表里,而是组织3张表,见表1。
(3)关系模式的定义。在此采用的是事实星座模型,表的定义主要是确定各种属性。维表的属性可以多,但由于维表的行数一般不多,所以即使属性很多但是维表占的存储空间是
非常有限的。维表的属性可以非常广,也可以以后增加,因为行数少,增加维表属性的工作量不会特别大。为了提高查询效率,维表的键定义为全局惟一。经过这种处理后,维表的定义能满足第二范式,但常常不是第三范式,这是为了满足用户查询要求[4-5]。
作文 我的初中生活
发布评论