统计学

  • 鲍忠铁:浅谈数据分析和数据建模

    本文大部分内容来源于 Bart Baesens 所著《Analysis in a Big Data World:The Essential Guide to DataScience and its Applications》。中文书名为《大数据分析数据科学应用场景与实践精髓》柯晓燕张纪元翻译

    2016-05-07
    0
  • t检验用不了?别慌,还有神奇的非参数检验

    当数据不符合正态分布时,除转化为正态分布检验外,还可运用非参数检验的方法。

    2016-05-05
    0
  • 从“男人比女人孝顺”和“百度医疗竞价”说起,大数据需要科学和正直的品格

    最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。

    2016-05-04
    0
  • 商品搜索引擎的推荐系统设计方案

    结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块。

    2016-05-04
    0
  • 用主成分法解决多重共线性问题

    一、多重共线性的表现 线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 二、多重共线性的后果1.理论后果 多重共线性是因为变量之间的相关程度比较高。 按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数…

    2016-05-03
    0
  • 量化研究影响用户使用红包的因素

    摘要:由于本人论文还没发布,不变透露,因此具体内容都引用自苏帆帆. 移动阅读业务持续使用行为影响因素研究[D]. 北京邮电大学, 2011. 量化–发问卷 作者最近刚完成了毕业论文初稿,做的课题是关于电子红包的用户研究,研究影响用户使用红包的因素。整个采用了问卷调查+实证研究的模式,简单点来说就是发量表型问卷后分析数据,进行一些探索性或者验证性的…

    2016-05-03
    0
  • 数据科学家如何玩台球? – 技术篇

    工作休息时间打打台球可以缓解一下神经,也可以更快的融入团队,但是开始水平太差,输多赢少,作为一个玩“数据”的,能不能通过数据科学优化一下这件事,至少多赢几局? 要赢一场球分为两个部分: 第一是要打的更准,总体来说,打的越准的人赢得概率更高,这个是硬实力; 第二是在准度一定的情况下,每一杆球,根据球形和对手,都要选择不同策略,策略包括击打对象,使用的力度,进攻…

    2016-04-29
    0
  • 数据变换的万能钥匙:Box-Cox变换

    至于说什么时候应该用哪个函数来作变换,原文也针对常见的几种情况给出了一些建议。当然,我们会遇到的数据纷繁复杂,究竟用什么函数效果比较好,还是得通过反复尝试并实际验证才知道。

    2016-04-23
    0
  • 样本分布不正态?数据变换来救场!

    假如我们的总体分布不怎么正态,样本量也不是很大,感觉用 t 检验好像有点儿够呛,这时该怎么办?

    2016-04-21
    0
  • 统计学界的一件大事:美国统计协会(ASA)正式发布了一条关于P值的声明

    (图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画) 今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清,多少…

    2016-04-19
    0
  • 标准正态分布函数的快速计算方法

    标准正态分布的分布函数 Φ(x)Φ(x) 可以说是统计计算中非常重要的一个函数,基本上有正态分布的地方都或多或少会用上它。在一些特定的问题中,我们需要大量多次地计算这个函数的取值,比如我经常需要算正态分布与另一个随机变量之和的分布,这时候就需要用到数值积分,而被积函数就包含 Φ(x)Φ(x)。如果 ZN(0,1),Xf(x)ZN(0,1),Xf(x),ff …

    2016-04-18
    0
  • 两样本估计和假设检验范例分析

    两样本推断性统计基础:两样本估计和假设检验基础。

    2016-04-14
    0
  • 谢邦昌:统计学中的人生处世法则

    摘要:这是谢邦昌先生写的一篇关于统计学与人生的文章,有点意思,谈及统计学与人生处世法则。 他的大致观点如下: 一、平均数———中庸法则 平均数, 是代表一个群体特性的集中趋势。人生一切行为, 应以中庸为法则, 既不可过分自我膨胀, 也不宜过分自我矮化。 认为: 平均数的代表性———不偏不激; 平均数的有效性———执两用中; 中央极限———坚守中庸; 平均数的…

    2016-04-13
    0
  • 检测异常值的参数和非参数方法(续)

    摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本间的相似情况。通常情况下,我们用样本之间的距离远近来衡量其相…

    2016-04-07
    0
  • 朴素贝叶斯分类和预测算法的原理及实现

    决策树和朴素贝叶斯是最常用的两种分类算法,本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名,用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯(Naive Bayes)假设特征P(A)在特定结果P(B)下是独立的。 1. 概率基础: 在开始介绍贝叶斯之前,先简单介绍下概率的基础知识。概率是…

    2016-04-04
    0
关注我们
关注我们
分享本页
返回顶部