统计学
-
傅一平:数据说谎的艺术
大数据时代,数据被称为新时期的石油,但与石油又不同,其价值的体现很大程度依赖于人的解释,虽然数据本身不会说谎,但这给数据说谎提供了操作空间,具备数据甄别能力对于你更真实的去理解数据大有好处。
-
好看的统计图都是相似的,难看的统计图各有各的丑
不讲炫酷的、高大上的统计图,而是给大家分享如何画好最基础的统计图。
-
美国统计学研究方向与国内有什么区别?
美国统计学研究方向有哪些?与国内有何区别?
-
t检验用不了?别慌,还有神奇的非参数检验
当数据不符合正态分布时,除转化为正态分布检验外,还可运用非参数检验的方法。
-
用主成分法解决多重共线性问题
一、多重共线性的表现 线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 二、多重共线性的后果1.理论后果 多重共线性是因为变量之间的相关程度比较高。 按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数…
-
量化研究影响用户使用红包的因素
摘要:由于本人论文还没发布,不变透露,因此具体内容都引用自苏帆帆. 移动阅读业务持续使用行为影响因素研究[D]. 北京邮电大学, 2011. 量化–发问卷 作者最近刚完成了毕业论文初稿,做的课题是关于电子红包的用户研究,研究影响用户使用红包的因素。整个采用了问卷调查+实证研究的模式,简单点来说就是发量表型问卷后分析数据,进行一些探索性或者验证性的…
-
数据变换的万能钥匙:Box-Cox变换
至于说什么时候应该用哪个函数来作变换,原文也针对常见的几种情况给出了一些建议。当然,我们会遇到的数据纷繁复杂,究竟用什么函数效果比较好,还是得通过反复尝试并实际验证才知道。
-
什么是坏数据,它有何副作用?
品觉导读: 很多机构难以获得准确的数据来支撑他们的日常决策。原因就是坏数据。坏数据也称脏数据,是指错误的、具有误导性的、格式非法的信息。 但凡任何一间数据仓库,势必存在着某种形式的坏数据。完全避免坏数据的产生几乎是不可能的,但数据管理可以很好地帮你保持数据的干净。 原文翻译: 信息和数据是一家机构最具战略意义的资产。数据仓库研究所(The Data Ware…
-
样本分布不正态?数据变换来救场!
假如我们的总体分布不怎么正态,样本量也不是很大,感觉用 t 检验好像有点儿够呛,这时该怎么办?
-
统计学界的一件大事:美国统计协会(ASA)正式发布了一条关于P值的声明
(图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画) 今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清,多少…
-
标准正态分布函数的快速计算方法
标准正态分布的分布函数 Φ(x)Φ(x) 可以说是统计计算中非常重要的一个函数,基本上有正态分布的地方都或多或少会用上它。在一些特定的问题中,我们需要大量多次地计算这个函数的取值,比如我经常需要算正态分布与另一个随机变量之和的分布,这时候就需要用到数值积分,而被积函数就包含 Φ(x)Φ(x)。如果 ZN(0,1),Xf(x)ZN(0,1),Xf(x),ff …
-
两样本估计和假设检验范例分析
两样本推断性统计基础:两样本估计和假设检验基础。
-
谢邦昌:统计学中的人生处世法则
摘要:这是谢邦昌先生写的一篇关于统计学与人生的文章,有点意思,谈及统计学与人生处世法则。 他的大致观点如下: 一、平均数———中庸法则 平均数, 是代表一个群体特性的集中趋势。人生一切行为, 应以中庸为法则, 既不可过分自我膨胀, 也不宜过分自我矮化。 认为: 平均数的代表性———不偏不激; 平均数的有效性———执两用中; 中央极限———坚守中庸; 平均数的…
-
检测异常值的参数和非参数方法(续)
摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本间的相似情况。通常情况下,我们用样本之间的距离远近来衡量其相…
-
检测异常值的参数和非参数方法
摘要:如何利用参数和非参数方法来检测异常值 异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢 有许多用来识别异常值的参数和非参数方法,参数方法需要一些关于变量分布情况的假设条件,而非参数方法并不需要这些假设条件。此外,你还可以利用单…