企业微观数据仓库
实现企业微观数据仓库的目的是把天津市统计局掌握的不同专业、不同时期、分散的企业微观数据信息,按照多个主题集中存储和管理在数据仓库中,灵活地、非常方便地实现固定的和随机动态的数据查询处理、综合分析和统计报表。根据统计信息自动化总体规划要求,这些查询、分析和报表功能以及今后统计人员的日常业务处理工作都需在Web上进行。
在实现数据仓库之前,天津市统计局已开发有企业微观数据库系统,受当时技术条件的限制,该系统的设计思路是按工业、建筑业、运输邮电业和批发零售贸易、餐饮业等不同专业分别建模,每个专业都对应独立的一套数据存储表和管理字典,共性数据依照专业被进行分割、分别进行存储,这样做虽然数据管理条理清楚,安全性能好,查询方式易于接受但存在的问题是查询方式不够灵活,不同专业的指标横向比较困难,难以实现产、供、销等企业生产各个阶段数据的一条龙分析研究。同时受软件条件限制,无法实现WEB方式查询且速度较慢。数据仓库是面向主题建模,在进行设计的时候,我们就将企业微观数据仓库设计成面向以下主题:
Ø 企业基本情况:各年度、各专业统计调查单位基本情况名录的主要内容及全部标识性内容。
Ø 企业财务状况:各年度、各专业企业的资产、经营投入、产出效益等财务经营状况。
Ø 企业劳动状况:各年度、各专业企业的就业人数及工资收入情况。
Ø 企业消耗状况:各年度、各专业企业生产所需的源材料及能源消耗情况,包括价值量和实物量消耗情况。
Ø 企业生产状况:各年度、各专业企业的主营生产情况。由于不同专业的生产方式不同,又下设若干子方面,及工业产品产销存情况,建筑业生产完成情况,公路、水运、港口企业生产完成情况,商业、餐饮业销售经营情况。
这样建模以后,不同年度、不同专业的同类数据被集中进行存储,如此一来,指标无论是横向比较还是纵向比较都非常容易,并且整个系统只需要维护一套数据字典。
数据建模是数据仓库设计中非常重要的一个环节,它包括逻辑建模和物理建模。在企业微观数据仓库系统中是利用ERWIN专业工具来建立模型,并形成相应的数据库结构。企业微观数据仓库的源数据是历年存储到微机上的数据,数据的格式、存储方式不尽相同,在加载到数据仓库之前,这些数据必须经过净化筛选、加工整理以及数据集成。利用NCR提供的FastLoad和其它工具,能方便地将经过处理的数据加载到NCR数据仓库里。目前企业微观数据仓库已存储2年各四个专业的历史数据,其它年度的数据正在整理当中。
应用开发的模式是基于目前流行的三层结构,即:后台是数据仓库,前台是Web服务器,客户端是浏览器。Brio Enterprise商业智能工具提供了很好的基于Web浏览器的查询、联机分析及报表功能,并且具有极高的安全性和严格的权限访问等级。企业微观数据仓库系统的前端应用都是基于Web方式开发,它具有:网上随机查询、网上多维分析、网上数据钻取、网上图形分析、网上表格旋转透视、网上多维报表等功能,并且操作方式都是拖拉方式,今后统计业务人员的月报、年报等数据处理都将可以在网上进行。数据仓库的好处、效益和威力发挥得淋漓尽致。
人口信息数据仓库
人口信息系统最大的特点是数据量大,每年的调查格式不近相同。以天津市人口统计数据为例,许多历年的、大量的人口调查原始资料多以纸介质、软盘、磁带等形式存储在资料库里,这些宝贵的资料,一方面面临外部环境对传统保存方式数据安全性的挑战,另一方面各业务部门和相关单位也有充分利用、进行数据挖掘的迫切需求。而数据仓库的应用,是一种最佳解决之道。
天津市人口约900万,第四次人口普查数据加上近十年的人口调查资料、劳动力情况调查资料和社区情况调查资料,原始数据量约10GB。针对人口系统的特点,在进行数据仓库设计时,面向主题设计了最佳数据模型和数据字典。人口数据的整理需要一定的时间,在本项目的实施过程中数据整理工作和数据加载工作同步进行。第四次人口普查900万条数据和90年至今近十年的抽样调查数据已全部加载到人口数据仓库。
人口信息数据大,对数据仓库引擎和数据加载工具有极高的性能要求。NCR的Teradata数据仓库是完全并行的数据库,速度非常之快;NCR的FastLoad数据加载工具也是并行的,可以启动多个会话进程,加载900万人口数据仅需15分钟,这对其它数据库来说是不可想象的。
人口系统的应用特点是各年度的绝对调查指标之间缺少可比性,要对原始数据进行加工整理,在原始数据基础之上派生各种相对分析指标,如人口分布、年龄结构、生育结构、家庭结构、婚姻状况等以满足各年度之间的分析研究。考虑到通用性和便于统计业务人员进行分析,我们设计了一个通用的、功能强大的、灵活的派生数据模块,利用后台处理和Teradata快速的特点,能将原始数据生成相对通用的派生数据。派生数据已将指标代码转化成汉字属性,并计算和产生了许多新的属性字段,在派生数据基础之上,利用Brio工具,统计业务人员和人口研究人口可以随机产生各种报表,可以作各种各样的联机分析处理。
截止九九年七月底,在短短的不到三个月时间内,企业微观数据仓库系统和人口信息数据仓库系统已基本完成,并且马上产生了效益。随着数据的增加和进一步开发需要,下一步将使用OLAP服务器和进行数据挖掘处理;对于人口系统正在考虑与地理信息系统进行对接,数据仓库系统及其应用会向更高层次迈进。