统计学
-
贝叶斯的定义及核心原理
一、什么是贝叶斯推断 贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。 它是贝叶斯定理(Bayes’ theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。 贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是…
-
正态分布的前世今生:误差分布曲线的确立
【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以名人、故事为主线简单的描述了正态分布的前世今生,这里特推荐给大家。 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是猜测上帝的造物的旨意,寻找随机误差分…
-
正态分布的前世今生:最小二乘法
【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以名人、故事为主线简单的描述了正态分布的前世今生,这里特推荐给大家。 第二个故事的主角是欧拉(Euler), 拉普拉斯(Lapalace),勒让德Legendre…
-
正态分布的前世今生:从高斯说起
【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以名人、故事为主线简单的描述了正态分布的前世今生,这里特推荐给大家。 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差就服从了正态分布。 创…
-
信息增益的基本概念
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以称之为“最大熵法”。最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰…
-
统计学中P值的意义
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。 专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。 P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实…
-
为什么要进行方差齐性检验?
为什么要进行方差齐性检验?来自大家的讨论,数据分析网整理发布。 【楼主】方差齐性检验是方差分析的重要前提,是方差可加性原则应用的一个条件。方差齐性检验是对两样本方差是否相同进行的检验。方差齐性检验和两样本平均数的差异性检验在假设检验的基本思想上是没有什么差异性的。只是所选择的抽样分布不一样。方差齐性检验所选择的抽样分布为F分布。 【沙发】方差分析的一个前提是…
-
假设检验中几个常见的基本概念
1. 假设检验 假设检验就是先对总体的参数或作出某种假设, 然后用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或接受。其结果将有助于研究者作出具,采取措施。 2. 原假设(零假设)焊择假设(对立假设) 原假设:根据检验结果准备予以拒绝或接受的假设,以H0表示;备择假设:与原假设不相容(即对立)的假设,以H1表示。如:对总体随机变量X的均数μ不小于一…
-
统计学理论中常说的四种错误
统计学上的四型错误 Ⅰ型错误:也称假阳性错误 即当原假设H0客观上成立, 但根据假设检验的规则,将有α大小的概率错误地拒绝H0,同时错误地接受备择假设H1。 Ⅱ型错误:也称假阴性错误 即当H0客观上不成立,但根据假设检验的规则, 将有β大小的概率错误地拒绝H1,同时错误地接受H0。 Ⅲ型错误:即最终回答的是1个错误的问题 此错误主要是由于试验设计不周密不完善…
-
主成分分析方法概念和基本性质
科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。比如说,对于糖尿病、动脉硬化等疾病,其病因是多种多样的,收集的资料中包含的信息是丰富多彩的。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。193…
-
“小数据”的统计学
一、小数据来自哪里 科技公司的数据科学、关联性分析以及机器学习等方面的活动大多围绕着”大数据”,这些大型数据集包含文档、 用户、 文件、 查询、 歌曲、 图片等信息,规模数以千计,数十万、 数百万、 甚至数十亿。过去十年里,处理这类型数据集的基础设施、 工具和算法发展得非常迅速,并且得到了不断改善。大多数数据科学家和机器学习从业人员就是在这样的情况下积累了经…
-
为什么说统计学依然是数据分析灵魂
什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家、哈佛大学终身教授刘军担任主任。
-
几个发人深省的统计小故事
在魔鬼经济学等数据科普读物中,常常会有很多反常识的小故事,或许这些反常识正是数据分析(统计)的价值所在,本篇中国统计网推荐大家看借个小故事。 问:统计资料表明.大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上的。这是否就意味着高速行驶比较安全?答:绝不是这样。统计关系往往不能表明因果关系。由于多数人是以中等速度开车,所以多…
-
数据王国里有“悖论”
概要:人们在对数据进行统计分析时发现一种“反常”现象:在分组比较中都占优势的一方,有时在总评中反而是劣势的一方。是辛普森首先对此进行描述,故称“辛普森悖论”。本篇通过事例介绍这一统计上著名的悖论,并探讨了导致辛普森悖论出现的原因。
-
统计学中骗人的“平均数”
M:吉斯莫先生有一个小工厂,生产超级小玩意儿。 M:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。 M:现在吉斯莫先生正在接见萨姆,谈工作问题。吉斯莫:我们这里报酬不错。平均薪金是每周300元。你在学徒期间每周得75元,不过很快就可以加工资。 M:萨姆工作了几天之后,要求见厂长。萨姆;…