统计学
-
样本分布不正态?数据变换来救场!
假如我们的总体分布不怎么正态,样本量也不是很大,感觉用 t 检验好像有点儿够呛,这时该怎么办?
-
统计学界的一件大事:美国统计协会(ASA)正式发布了一条关于P值的声明
(图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画) 今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清,多少…
-
标准正态分布函数的快速计算方法
标准正态分布的分布函数 Φ(x)Φ(x) 可以说是统计计算中非常重要的一个函数,基本上有正态分布的地方都或多或少会用上它。在一些特定的问题中,我们需要大量多次地计算这个函数的取值,比如我经常需要算正态分布与另一个随机变量之和的分布,这时候就需要用到数值积分,而被积函数就包含 Φ(x)Φ(x)。如果 ZN(0,1),Xf(x)ZN(0,1),Xf(x),ff …
-
两样本估计和假设检验范例分析
两样本推断性统计基础:两样本估计和假设检验基础。
-
谢邦昌:统计学中的人生处世法则
摘要:这是谢邦昌先生写的一篇关于统计学与人生的文章,有点意思,谈及统计学与人生处世法则。 他的大致观点如下: 一、平均数———中庸法则 平均数, 是代表一个群体特性的集中趋势。人生一切行为, 应以中庸为法则, 既不可过分自我膨胀, 也不宜过分自我矮化。 认为: 平均数的代表性———不偏不激; 平均数的有效性———执两用中; 中央极限———坚守中庸; 平均数的…
-
检测异常值的参数和非参数方法(续)
摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本间的相似情况。通常情况下,我们用样本之间的距离远近来衡量其相…
-
朴素贝叶斯分类和预测算法的原理及实现
决策树和朴素贝叶斯是最常用的两种分类算法,本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名,用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯(Naive Bayes)假设特征P(A)在特定结果P(B)下是独立的。 1. 概率基础: 在开始介绍贝叶斯之前,先简单介绍下概率的基础知识。概率是…
-
检测异常值的参数和非参数方法
摘要:如何利用参数和非参数方法来检测异常值 异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢 有许多用来识别异常值的参数和非参数方法,参数方法需要一些关于变量分布情况的假设条件,而非参数方法并不需要这些假设条件。此外,你还可以利用单…
-
统计学家难得的共识:是时候停止滥用P值了
小小的P值, 对于显著性, 你说想要说些什么 —Stephen Ziliak, 罗斯福大学经济学教授 需要多少个统计学家,才能保证对于p值有至少50%的不满呢根据曼荷莲学院统计学家George Cobb半开玩笑的估计,答案是两个…或者一个。所以也就不令人意外,当美国统计协会聚集了26名专家商讨关于统计显著性和P值的一致声明时,讨论很快就变得激烈。 对于外行人…
-
一名数据分析师走过的路
都说世上没有丑女人只有懒女人,我恰恰就是后者… … 疏于总结自己走过的路做过的事就是我的“懒”体现之一,最近看到不少童靴在各种渠道问各种关于数据分析师的问题,比如“快要毕业了想做数据分析师要如何准备面试”,“现在是做XX工作,换工作时想转行做数据分析师应该补充些什么指示”等等,所以决定摆脱拖延症就从总结自己作为一个数据分析师走过的路开始,各位看官觉得有所收益…
-
数据科学极简史(二)
2002 年 4 月,数据科学期刊(Data Science Journal)创刊,旨在发表「科学与技术领域的数据与数据库管理」方面的论文。「此期刊涵盖对于数据系统的描述,及其在互联网上的发布、应用和法律问题。」此期刊由国际科学理事会(International Council for Science )旗下的数据科学技术委员会(Data for Scien…
-
数据科学极简史(一)
数据科学家如何变得性感的故事,大致也就是作为成熟学科的统计学如何与新兴学科计算机科学发生关系的故事。“数据科学”这个术语的出现较晚近,用来指代一个需要解读大量数据的职业。但解读数据这件事的历史很长,它已经被科学家、统计学家、图书馆员、计算机科学家以及其他人士讨论多年。下文的时间线追溯“数据科学”一词的演化,以及它的应用、对它进行定义的尝试和一些相关的术语。 …
-
让数据和用户服务于你的运营
【摘要】 什么都要靠数据去支撑。比如我们把按钮从左边换到右边,从红色换成黄色。这个东西一定要有什么数据分析团队、数据分析师、产品经理在哪儿反复打磨。最后跟我们说一句,按钮从以前的100像素换到了105像素。这是很无聊的一件事情,但是这个要用数据去验证,你知道吗? 大家好,我是来自萌义网络的干田。 以前我上台的时候,是这样跟大家说的:“大家好,我是干田,干部的…
-
统计学和数据挖掘的异同探讨
1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 统计学和数据挖掘研究目标的重迭自然导致了迷惑。…
-
数据科学的统计学入门
统计学是门严肃的学科,很多人穷尽一生来学习研究它。