在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原始数据集,面对这些原始数据集,如何揭示事情的真相,这就是我们需要思考和行动的事情。
统计能化繁为简,帮助您让一堆堆令人困惑的数据发挥作用。换而言之,掌握统计知识和思维,可以帮助我们理解好数据,从而发觉数据的价值,看到数据所要表现的真相。
当你发现数据的真相之后,接下来就需要借助可视化的方法来表现,使之公之于众。对于数据的真相,如何进行可视化,选择可视化哪种方式,需要我们思考和践行,并且还要考虑受众的感觉和希望给予受众什么。【研究用户非常重要,知彼知己百战不殆】
统计无处不在
统计无处不在,统计无处不有,这是一个统计的世界。擦亮我们的眼睛,带上统计的思维认识和改造这个世界。
网页浏览、运动竞技、游戏排名、消费指数、人均工资等等,这些都与统计有关联。但凡人们目光所及,处处皆有统计量。
何谓“统计”?
统计是这样一种思想,他们通过某种有意义的方式对原始事实和数字进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。简而言之,统计让我们认识数据背后的有价值的东西。
统计的研究包括:统计数据的来源,计算方法及有效使用方法并得出结论。
统计数据来源,也就是清楚数据从哪里来,切记:好数据有好结果,坏数据有坏结果。
计算方法,也就是要理解统计的计算方法和使用范畴,什么问题需要用什么样的计算方法,这是要解决的。
使用方法,知道统计计算方法是前提,接下来要知道更具问题域进行方法的使用。
得出结论,利用方法进行处理后,要能够对结果进行解读和表示。
为何学习统计学?
这是一个统计的世界,学习统计学有利于人们更好地认识和改造世界。
借助统计方法可以了解到事情的真相和数据的本质。
一旦得到可靠的统计量,就能做出客观的决策,比如精确地预测或者以最有效的方式传达自己想传达的思想和观点。
统计有这么多好处,但是,任何事物都具有两面性。统计既能够揭示真相,也能够误导真相。因而,我们需要辨别什么是真的,什么是假的,后者说什么是真实,什么是谎言?
好好地掌握统计学,正确地利用统计学,我们将会拥有更好的手段去判断统计量是否正确,从而避免遭人愚弄或是欺骗。
软件无法代替你的思考
制图软件可以为你节省大量的时间,生成有效的图表,但你仍然需要了解事情的来龙去脉。常用的制图软件包括Excel、R语言、Python语言等。
对于数据,能否选择合适的图表有效展示和传达信息,这需要好好思考。
软件能够将数据转换成图表,至于图表是否正确,需要你来判断和保证。
饼图
饼图是把数据划分为有着明显区别的几个组或者几个类。饼图为圆形,被分割为几个扇形块,每一块代表一个组(类)。扇形块的大小表示这类数据占总体的比例。扇形块越大,该组(类)的相对频繁程度越大,一个特定组中的对象数目称为频数。
饼图体现比例,并且对于有着明显区别的基本比例进行比较时,饼图有用。
条形图
对于各个类的大小大致相同的情况,条形图是理想的图形,你能更精确地指出那个类的频数最高,也更容易发现细小的差别。
条形图可以是垂直的,也可以是水平。
条形图中的每一个长方形代表一个特定的类,长方形的长度代表某种数值。长方形越长,数值越大。所以长方形的宽度相等。
堆砌条形图和分段条形图,当你想比较频数,可以使用堆砌条形图;当你要同时体现频数和百分数时,可以使用分段条形图。
直方图
直方图与条形图外观相似,两个重要区别,一,每个长方形的面积与频数成比例;二,图上的长方形之间没有间隔。
直方图是一种专门用于体现分组数据的图形,它看起来像条形图,但每条长方形的高度是频数密度,而不是频数。频数密度指的是分组数据中频数的密集程度。
累计频数图
累计频数图,表示累计频数的一种图表。累计频数,即到某个特定数值为止的总频数,即频数的累计总和。
折线图
折线图能很好地体现数据的趋势,你将每一批数据画成点,然后将这些点连接起来。可以方便地在同一张图上显示多批数据。
折线图常用于显示随时间变化的数值。
折线图用于展示数值型数据,不应用于展示类别数据。
重要的统计量
频数:表示在一个特定组,或者说在一个特定的区间内的统计对象的数目,类似于数数。
类别和数字:类别数据,也叫定性数据,数据被划分为各种类别,用以描述类的性质或特征。数值型数据,也叫定量数据,它所涉及的是数字,数值型数据中数值具有数字的意义,但还涉及计量或计数。
对于各种数据结果,如何进行数据可视化?
一方面取决于我们数据结果的特性,是类别数据结果,还是数值型结果;
另一方面取决于我们希望向用户传达什么信息,记住:向用户最直观地传达最重要和价值的信息。
数据可视化的画图,我们可以利用各种软件工具,比方说Excel软件、R语言和Python语言等,因而,熟练地掌握和应用这些软件工具,也是我们认识数据、理解数据和应用数据的必备技能之一。
思考题:
1数据可视化,怎么理解?
2常用的数据可视化软件工具有哪些?你会使用那些?
3常用的数据可视化表示方式有哪些,各自有什么差异?请举例说明。
作者:王路情,80后,数据科学研究者和实践者,包括数据科学知识传播,数据挖掘项目实践,数据分析报告撰写等工作。
来自:http://www.wangluqing.com/2015/06/29/luqinbiji1
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。