统计学
-
【案例】洛杉矶警局如何用算法预测并制止犯罪行为
洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。
-
鲍忠铁:浅谈数据分析和数据建模
本文大部分内容来源于 Bart Baesens 所著《Analysis in a Big Data World:The Essential Guide to DataScience and its Applications》。中文书名为《大数据分析数据科学应用场景与实践精髓》柯晓燕张纪元翻译
-
t检验用不了?别慌,还有神奇的非参数检验
当数据不符合正态分布时,除转化为正态分布检验外,还可运用非参数检验的方法。
-
从“男人比女人孝顺”和“百度医疗竞价”说起,大数据需要科学和正直的品格
最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。
-
商品搜索引擎的推荐系统设计方案
结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块。
-
用主成分法解决多重共线性问题
一、多重共线性的表现 线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 二、多重共线性的后果1.理论后果 多重共线性是因为变量之间的相关程度比较高。 按布…
-
量化研究影响用户使用红包的因素
摘要:由于本人论文还没发布,不变透露,因此具体内容都引用自苏帆帆. 移动阅读业务持续使用行为影响因素研究[D]. 北京邮电大学, 2011. 量化–发问卷 作者最近刚完成了毕业论文初稿,做的课题是关于电子红包的用户研究,研究影响用户使用红包的因素。整个采用了问卷调查+实证研究的模式,简单…
-
数据科学家如何玩台球? – 技术篇
工作休息时间打打台球可以缓解一下神经,也可以更快的融入团队,但是开始水平太差,输多赢少,作为一个玩“数据”的,能不能通过数据科学优化一下这件事,至少多赢几局? 要赢一场球分为两个部分: 第一是要打的更准,总体来说,打的越准的人赢得概率更高,这个是硬实力; 第二是在准度一定的情况下,每一杆球,根据球形…
-
数据变换的万能钥匙:Box-Cox变换
至于说什么时候应该用哪个函数来作变换,原文也针对常见的几种情况给出了一些建议。当然,我们会遇到的数据纷繁复杂,究竟用什么函数效果比较好,还是得通过反复尝试并实际验证才知道。
-
样本分布不正态?数据变换来救场!
假如我们的总体分布不怎么正态,样本量也不是很大,感觉用 t 检验好像有点儿够呛,这时该怎么办?
-
统计学界的一件大事:美国统计协会(ASA)正式发布了一条关于P值的声明
(图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画) 今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今…
-
标准正态分布函数的快速计算方法
标准正态分布的分布函数 Φ(x)Φ(x) 可以说是统计计算中非常重要的一个函数,基本上有正态分布的地方都或多或少会用上它。在一些特定的问题中,我们需要大量多次地计算这个函数的取值,比如我经常需要算正态分布与另一个随机变量之和的分布,这时候就需要用到数值积分,而被积函数就包含 Φ(x)Φ(x)。如果 …
-
两样本估计和假设检验范例分析
两样本推断性统计基础:两样本估计和假设检验基础。
-
谢邦昌:统计学中的人生处世法则
摘要:这是谢邦昌先生写的一篇关于统计学与人生的文章,有点意思,谈及统计学与人生处世法则。 他的大致观点如下: 一、平均数———中庸法则 平均数, 是代表一个群体特性的集中趋势。人生一切行为, 应以中庸为法则, 既不可过分自我膨胀, 也不宜过分自我矮化。 认为: 平均数的代表性———不偏不激; 平均数…
-
检测异常值的参数和非参数方法(续)
摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本…