一文搞清楚数据仓库模型:星型模型和雪花模型的区别

在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。

一、概述

数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。

二、星型模型

星型模型:是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相来连接,不存在渐变维度,所以数据有一定的冗余。

比如:销售数据仓库中的星型模型

一文搞清楚数据仓库模型:星型模型和雪花模型的区别
三、雪花模型

雪花模型:当有一个或多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型去除了数据冗余。
比如:销售数据仓库中的雪花模型

一文搞清楚数据仓库模型:星型模型和雪花模型的区别
四、比较

1)星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花模型要高。
2)星型模型不用考虑很多正规化的因素,设计和实现都比较简单。
3)雪花模型由于去除了冗余,有些统计就需要通过表的连接才能产生,所以效率不一定有星型模型高。
4)正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。

星型模型和雪花模型的优劣对比:

一文搞清楚数据仓库模型:星型模型和雪花模型的区别
五、总结

有时候规范化和效率是一组矛盾。一般我们会采取牺牲空间(规范化)来换取好的性能,把尽可能多的维度信息存在一张“大表”里面是最快的。通常会视情况而定,采取折中的策略。

具体问题具体分析,如时间维度,年,季就没必要做雪花,而涉及到产品和产品的分类,如果分类信息也是我们需要分析的信息,那么,要建关于分类的查找表,也就是采用雪花模式。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(1)
Afenxi朋友们的头像Afenxi朋友们编辑
上一篇 2022-04-10 11:47
下一篇 2022-05-02

相关文章

  • 数据模型——数据仓库的灵魂

    随着数据量的爆炸式增长,数据仓库或数据平台已经是每家企业或机构不可缺少的工具,而数据模型正是数据仓库的灵魂。本期详细介绍数据模型的概念、分类和应用,相信你一定有兴趣~

    2017-08-16
    0
  • 李昊:谈谈数据仓库建设心得(下)

    分享记录: 下面是具体的模型设计,一般在数据仓库行业,业务模型有两类,一类是企业自有的数据模型,一类是行业模型,比如金融业:天睿,银行业、保险业、制造业、医疗生命科学行业,这些一般是实施顾问团队总结的。但这些行业模型在中国市场运行的不太好,除了金融和电信稍好点,其他行业因发展较快、业务变化较快,迭代较国外快很多。我不建议以自上而下的方式、预先用一个模型将自己…

    2016-04-21
    0
  • 数据挖掘化功大法(4)——数据挖掘涉及的技术

    数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 下图比较清楚的画出了学习数据挖掘需要掌握的知识内容: 1、统计学 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科…

    2015-01-04
    0
  • Hadoop面试中6个常见的问题及答案

    译者 | 码农网 – 小峰 你准备好面试了吗?呀,需要 Hadoop 的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是 Hadoop? Hadoop 是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop 包括以下内容: HDFS(Hadoop Dis…

    2022-02-10
    0
  • 部署大数据,请参考大数据分析平台架构!

    部署大数据?请参考大数据分析平台架构(Big Data Analytics Platform)

    2016-11-04
    0
关注我们
关注我们
分享本页
返回顶部