1.2.4 样本数据库
样本数据库是数据仓库的一种有趣的、混杂的形式,它只是真实档案数据或轻度综合数据的子集。术语“样本”源于它是更大数据库的子集(即样本)这一事实,并需要进行定期刷新。
1.2.5 数据仓库中的数据组织
数据仓库中最简单最常用的数据组织形式也许是简单堆积结构,从操作型环境中取出每天的事务处理,然后综合成数据仓库记录,这个综合可根据顾客、帐户或者任何组织到数据仓库的主题领域来进行。这里的事务处理是以天来进行综合。数据通过与前面相同的处理方法从操作型环境输入到数据仓库环境中。只是在轮转综合文件中的数据才被输入到不同的结构形式中。第一周的7天中的活动被逐一综合到7个每日相应的位置,到第八天,将7个每日位置的数据加到一起,并放人第一周的数据位置中。然后,第八天的每日总计加到第一个每日数据位置。
1.2.6 元数据
数据仓库环境中一个重要方面是元数据。元数据是关于数据的数据。只要有程序和数据,元数据就是信息处理环境的一部分。但是在数据仓库中,元数据扮演一个新的重要角色。也正因为有了元数据,可以最有效地利用数据仓库。元数据使得最终用户/DSS分析员能够探索各种可能性。元数据在数据仓库的上层,并且记录数据仓库中对象的位置。
1.2.7 数据索引与监视
数据仓库的灵魂就在于灵活性和对数据的不可预测的访问。数据仓库中的数据如果不能方便和有效地检索,那么建立数据仓库这项工作就不成功。当然,设计者可以利用许多方法来使数据尽可能的灵活,例如利用双重粒度级和数据分割。但这些技术一定要支持方便的索引,如二级索引、稀疏索引、动态索引、临时索引等。而且建立和应用索引的费用不能太高。同时数据仓库中的数据也应能随意地被监视,监视数据的费用也不能太高,过程不能太复杂,监视程序在需要时应能随时运行。
1.2.8 数据周期
所谓数据周期是指从操作型环境数据发生改变起,到这个变化反映到数据仓库中所用的时间。原则上从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历24 h。没有必要急于把这个变化转入信息仓库中去,原因在于如果操作型环境与数据仓库相互之间结合得越紧密,那么所需的费用就越昂贵,技术也越复杂。24 h的时间间隔以现有技术来说将很容易被实现。更有说服力的一个原因是,时间间隔给环境附加了一个特殊的限制。间隔24 h,使得在数据仓库中不必做操作型处理;在操作型环境中不必做数据仓库处理。时间间隔的另一个好处是在转入数据仓库之前,数据能达到稳定。
1.2.9 数据分析
数据分析技术是指一种能够应用在数据仓库基础之上,进行业务应用分析的数学方法。在现阶段主要包括OLAP技术、数据挖掘技术、统计分析技术、联机挖掘等内容。
OLAP技术也叫联机分析处理。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更加深入了解的一类软件技术。
OLAP技术的技术核心就是维。如地理维、时间维等。维也可以分层次的。例如时间维可以向下分成日期、月份、季节、年等不同的层次;地理维可以向下划分为区、省、市、县、乡等层次。
2 数据处理方案的选择
对于移动通信企业而言,数据仓库的实施是对移动经营分析管理的一次提升,因此要谨慎地选择适合需要的数据仓库数据处理与分析产品。目前主流数据仓库的数据处理专业工具有:CA,NCR,IBM,Informix(IBM),Oracle和SAS。
经过采样测试和对用户的调查,SAS效率较其他工具高,ETL的效果较好,适合经营分析领域的数据处理。在国际学术界有条不成文的规定:凡是SAS统计分析的结果,可以不说明算法。通过对SAS 8.0的使用,发现SAS的人机对话界面很友好,既可以通过编程进行数据的处理,也可以通过在对话框选择命令来间接得到数据处理代码。但SAS数据处理的劣势是它的数据仓库是一种比较落后的数据集模式。
由于SAS数据处理的效率性能和相关功能及对经营分析的针对性都优于其他专业工具。最终决定选择SAS作为数据处理的工具,为弥补SAS数据库技术的落后,数据仓库的存储还是采用最流行的Oracle。
3 数据分析方案的选择
市场上流行的主要有Cognos,Business Objects,Brio等数据仓库前端分析工具。对于移动通信企业经营分析系统,除了要有基本的旋转、切片、钻取功能等OLAP功能以外,关键是有功能强大完整的Web端。Brio可以支持Web/Intranet环境,并且报表生成速度快,支持多种数据导出格式,如excel,pdf,txt,html,csv等。其离线分析方式也保证了经营分析系统的性能不会受到用户的增加而减弱。Brio在这些方面比较合适企业经营分析系统的要求,所以我们选择Brio作为移动通信企业经营分析系统的数据分析工具。