数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
1、多数据整合
将分布在各处的数据整合到统一的数据仓库中,以便处理。
上图是数据仓库的典型结构。
数据经过抽取、清理、装载、刷新等步骤完成统一的数据仓库化。
2、构建数据立方
通常数据仓库是对历史数据进行的多维度的分析,那么就需要构建数据立方体。每个维对应于模式中的一个或一组属性。来看一张图更深入的理解一下:
立方体的三个维度分别为地区、时间和产品,我们可以根据不同的维度分组,得到哪个地区哪个产品的销售件数、销售金额等多种数据,每个数据落到数据立方的相应的区域中。同时,数据立方也可以根据不同的维度进行上下钻取。
时间维度上可以向上钻取到年,向下钻取到月。地区维度可以向下钻取到某个地市的区,如果是跨国的向上钻取到国家,中国、日本等。商品可以向上钻取到分类,向下钻取到品牌。
3、事务数据记录
事务数据是指在一个处理过程中,如用户到超市的一次购买记录,网站的一次登录到点击流程,对应的记录方式为:
点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。
形成事务数据记录,而记录的结果可以根据需要进行构建。
这些数据对于进行购物栏分析,频繁项集的挖掘非常有用。
4、其它类型数据
包括时间相关的序列数据、空间数据(如地图)、网页数据等多种数据格式。根据消息流可以进行入侵检测、通过时间序列可以进行趋势预测、通过顾客的意见,了解产品在市场被接受的程度,大数据已经深入了影响了我们的生活,而数据仓库的构建是重中之重。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。