统计学
-
《深入浅出统计学》9再谈正态分布的运用:超越正态
但愿所有的连续概率分布是是正态分布。这是但愿而已,人总是要有着美好的愿望,同时,又要面对现实生活和客观实际。 X+Y问题【组合正态分布问题】 通过图性描述X+Y的特点。 思考:X-Y的问题? 线性变换描述了数据的基本变化。 要点一 二项分布与正态分布的近似关系 在某些情况下,泊松分布可以近似二项分布;不过,在另一些情况下,正态分布也可以近似二项分布。 近似处…
-
《深入浅出统计学》8正态分布的运用:保持正态
离散概率分布并非无所不能。 除了数值是离散的概率分布以外,还有一大类,即数值是连续的概率分布。正态分布是一种重要的连续型概率分布。 连续型数据 连续型数据往往通过测量得到,而不是通过计数得到,测量结果在很大程度上取决于测量精度的要求。 对于离散概率分布,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围内的概率。 概率密…
-
《深入浅出统计学》7几何分布、二项分布、泊松分布:坚持离散
计算概率分布颇为耗时。但是,我们可以掌握一些特殊而有用的概率分布,比方说几何分布、二项分布和泊松分布,利用这些特殊的概率分布,可以快速地计算概率、期望和方差。 几何分布 几何分布有以下特点: 进行一系列相互独立的试验。 每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同。 你所研究的是为了取得第一次成功需要进行多少次试验。 几何分布表示形式…
-
《深入浅出统计学》6排列与组合:排序、排位、排
顺序有时候很重要。《大学》里面有言:物有本末,事有终始,知所先后,则近道矣。 计算排位 推导出用于重复排列的公式 设想你需要清点n个对象的排位方式的数目,再设想有k个对象是类似对象,其排位数计算公式如下。 推广上述公式,设想对n个对象进行排位,其中一类对象共计k个,另一类对象共计j个,排位方式的数目如下。 按类型排位数目计算公式 何谓排列? 排列数总结如下。…
-
《深入浅出统计学》5离散概率分布的运用:善用期望
意外从天而降,未来如何演变? 利用概率预测长期结果,利用期望度量结果的确定性。 随机变量 随机变量是一个可以等于一系列数值的变量,而这一系列数值中的每一个值都与一个特定概率相关联。 离散变量,这里的变量具有离散值,即该变量只能取确定数值。 只要算出概率分布,就能利用概率分布来确定预期的结果。 期望指示预测结果。 变量X的期望通常写作E(X)。 期望的计算公式…
-
《深入浅出统计学》4概率计算:把握机会
人生无常,且行且珍惜。 世界总是在变化,但有些事情总比其他事情更有可能发生,可能性问题的研究需要概率论。通过概率论评估各种结果的可能,让你预测未来。知悉可能的结果则可帮助你作出有根据的决策。 几率有多大? 概率是量度某事发生几率的一种数量指标。统计学用“事件”一词表示有概率可能的任何事情。 为了求出押中赌注的概率,我们用押中赌注的可能数目除以可能出现的结果数…
-
《深入浅出统计学》3分散性与变异性的量度:强大的“距”
事实是否可靠,我们该问谁?我们该如何分析和判断? 平均数在寻找数据典型值方面是一个好手段,但是平均数不能说明一切。平均数能够让你知道数据的中心所在,但若要给数据下结论,尽有均值、中位数、众数还无法提供充足的信息。分析数据的分散性和变异性,可以更好地认识和理解数据。通过各种距和差来度量分散性和变异性。 使用全距区分数据集 平均数往往给出部分信息,它让我们能够确…
-
《深入浅出统计学》2集中趋势的度量:中庸之道
有时候,把握问题的核心是当务之急。你的核心竞争力是什么?认识事物,要抓重点,抓事物的本质。这个方法论,也是一个很好的学习之道。 从一大堆数字中看出模式和趋势可能不容易,而求出平均数通常是把握全局的第一步。在认识数据的过程中,我们需要全局意识和整体观念,通过数据的平均数能够迅速找出数据中最具代表性的数字,从而得出重要的结论。统计世界中几个表示集中趋势的重要统计…
-
《深入浅出统计学》1信息图形化:第一印象
在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原始数据集,面对这些原始数据集,如何揭示事情的真相,这就是我们需要思考和行动的事情。 统计能化繁为简,帮助您让一堆堆令人困惑的数据发挥作用。换而言之,掌握统计知识和思维,可以帮助我们理解好数据,从而发觉…
-
成为一名数据分析师的新手指导
数据分析师的主要职责包括寻找、检索、整理和传递从数据中来的见解。数据分析师也帮助报告和发现隐藏在数据潜在产品中的有意义的见解。从商业指标到用户行为和产品表现,他们负责获取、分析和报告范围的数据。
-
数据分析师有哪些专业要求?
想做数据分析师的童鞋们,有木有发现这个岗位是有专业要求的? 中枪的专业常有哪些呢?“统计学”或“心理学”或“社会学”或“人口学”或“营销学”或“财务管理”或…… 为什么会要求这些专业呢?它们和数据分析工作有什么关系呢? 这里与大家聊一聊我的理解。 一、统计学专业 统计学贯穿数据分析的全过程,没有统计学基础,很难有专业的数据分析。数据分析的各个步骤,都要用到统…
-
数据挖掘化功大法(4)——数据挖掘涉及的技术
数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 下图比较清楚的画出了学习数据挖掘需要掌握的知识内容: 1、统计学 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科…
-
统计学在点击流数据中的应用范例:Adobe Analytics异常检测
现在的大多数网站分析工具在处理点击流数据时,往往用的是统计学中的基础数据处理和分析方法,比如抽样、汇总、趋势、对比、平均等基本数据统计分析方法,很少有工具会用一些数据挖掘的算法。今天介绍Adobe Analytics中借助统计学实现的一个异常检测功能。 听到异常检测,我们大概可以知道通常做数据异常检测使用的方法:基本方法就是做对比,通过把某个数据与设定好的条…
-
数据挖掘和统计学专业术语大盘点
一、数据挖掘术语 【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。 【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个“域” 。 【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、 或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。 【置信度】在形如“如果买了A和B,…
-
统计学网址大全
统计学网址大全