百度数据分析之道

摘要：百度《数据分析之道主要》内容

什么是数据分析（道）
–数据分析是什么？
–什么是做好数据分析的关键？
–分析要思考业务，尤其接地气
–分析要言之有物，行之有效
数据分析方法（术）
常见统计陷阱

内容摘要：

1）数据分析是什么？

字面拆解：数据 + 分析

有骨有肉方成一个人

–分析是骨架（主）

–数据是血肉（附）

常见错误

–只有数据：机器报表不行么？

–只有分析：你是瞎猜的吧？

2）什么是做好数据分析的关键？

数据分析的核心：思路 > 方法

–思路：业务调研+逻辑思考+创新灵感+可行建议

–方法：汇总统计，Make it Simple(切忌喧兵夺主)

数据分析的价值与定位

–百度的T序列不重视数据分析（数据分析的能力难以评价）

–麦肯锡一个分析报告卖了上千万（仅有简单统计）

–数据分析对一个企业有巨大价值，作用于业务发展的前（探索）期或阶段性改进期（颠覆创新），先有数据分析，才能定业务模型，再后是建模优化（机器学习）

数据分析人才

–同样的数据，仁者见仁智者见智，分析人才的不可复制性

–做好数据分析的人不一定能当老大，但至少能当军师

数据分析之道

数据分析是什么？

字面拆解：数据 + 分析
有骨有肉方成一个人
–分析是骨架（主）
–数据是血肉（附）
常见错误
–只有数据：机器报表不行么？
–只有分析：你是瞎猜的吧？

什么是做好数据分析的关键？

数据分析的核心：思路 > 方法
–思路：业务调研+逻辑思考+创新灵感+可行建议
–方法：汇总统计，Make it Simple(切忌喧兵夺主)
数据分析的价值与定位
–百度的T序列不重视数据分析（数据分析的能力难以评价）
–麦肯锡一个分析报告卖了上千万（仅有简单统计）
–数据分析对一个企业有巨大价值，作用于业务发展的前（探索）期或阶段性改进期（颠覆创新），先有数据分析，才能定业务模型，再后是建模优化（机器学习）
数据分析人才
–同样的数据，仁者见仁智者见智，分析人才的不可复制性
–做好数据分析的人不一定能当老大，但至少能当军师

分析要思考业务，尤其要接地气

数据分析要轻方法，重调研
–方法上，基本统计即可
–调研上，亲临一线去询问、了解实际情况，切近“数据空想”
–只有熟悉业务，才能提供有价值的分析和建议

客户流失仅仅是推广效果不够理想吗？

分析要言之有物，行之有效

数据分析，我们真的是仅仅想分析么？价值
–分析报告的及格线是“言之有物” — 事实
–优秀线是“振聋发聩”或“醍醐灌顶” — 分析
–满分线是产生了切实有效的行动方案 — 建议
分析实例：我们处于市场领先地位，针对次位的竞争对手近期发展进行数据分析
–及格线：竞争对手发展势头很猛，市场份额怎样变化
–优秀线：虽然竞争对手近期势头发展很猛，但实际上他突出的优势在X，劣势在Y，未来可能会采取什么行动，同时市场上的其它竞争对手也不容忽视
–满分线：针对于竞争对手的可能动作，我们有如下方面需要改进：加强优势A、B、C，与X达成进一步战略合作关系，并收购Y等等

汇总统计

起源：用单个数或者数的小集合捕获可能很大值集的各种特征
–频率度量：众数
–位置度量：均值和中位数
–散度度量：极差和方差
–数据分布：频率表、直方图
–多元汇总统计：相关矩阵、协方差矩阵

汇总数据指标的设计，源于非常朴素的思想

标准差：想设计一个指标，可以用来衡量数据集合的发散性，经过如下思考
–每个样本的偏差累加就可以衡量（real num – mean）加和
–偏差较大的值应该具有更大的权重（real num – mean）^2
–集合中数字越多，方差越大，应该与集合大小无关 Mean(（real num – mean）^2)
–量纲与原始数据不同，无法比 Sqrt(Mean(（real num – mean）^2))
–最终结果，RMSE

汇总统计 — 需要多少样本

在美国总统选举的各种民意测验中，关于支持率的一个常用标准是置信度为95%（误差在+-2.5%以内，置信区间宽度为5%），那么要达到这样的标准需要多少人呢？

计算出N=1067，至少要一千个样本以上，才能满足需求
–Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到
–n是样本数量，n越大，置信区间越小
–p是真实的概率，p=0.5时候，p(1-p)最小，所需n最大

汇总统计 — 细拆与汇总的权衡

在数据量充足的时候，加一些维度、拆的更细，使得每个小格里的样本更加类似，结论更加准确但数据不足或分拆未带来结论改变，就不能再拆，以免结果失去统计意义。

OLAP 概念 — 汇总统计的极致工具

机器学习 — 模型为什么work

为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”，还要劝人不要抽烟？
–概率分布问题，“人事”与“天命”
–虽然选择健康的生活方式（尽人事），我们也得听天命（自己是正态曲线的好尾巴，还是坏尾巴），但是天命整体分布可以变得更好（正态曲线的中轴向好的一面偏移）
如果没有附加的抽烟信息，如何从一组寿龄数据中作预测？
–目标：MSE做为评价指标，MSE越小越好
–方法：数据为正态分布的话，中位数（即波峰）做为预测值使得MSE最小
通过如上两点，证明抽烟信息对预测是有效的，如果一个人抽烟，那么我们预测他活到70岁，否则75岁
如果再多一个酗酒的信息呢？

精心挑选的平均数

实例：小区业主申请减税 vs 卖房子
当数据分布呈现正态分布特点（钟形的曲线）时，均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征（类似于滑梯）时，那么均值、众数、中位数就相差甚远了。
以书思今，学以致用
–分布与平均数一样重要
–两个特例往往使得数据的统计结果产生很大的变化

无所不能的图形

同样一份数据，2010年的前6个月，使用产品的客户数量由最初的2w，以每个月100个的速度增长。

缺失或不匹配的比较

实例1（缺失的比较）
–临床显示，本药品在10分钟内可以杀死5w个感冒病毒
–数据因为缺失了比较对象，而毫无意义
实例2（不匹配的比较）
–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%，得出结论参军是很安全的。
–比较对象不明确、或者根本不可比，也是常见的
以书思今，学以致用
–为什么评估策略效果要有对照组？

偏差的抽样

实例
–10个硬币抛1000次，总会出现10个正面或9个正面的情况
–全国人民喜闻乐见油价上涨，水价听证会大家纷纷反馈价格上涨影响不大
–采用有偏差的样本，可以产生任何人需要的任何结果
在抽样统计的时候，要充分思考抽样的过程对样本造成了怎样的偏差，以及这个偏差对我们的结论有什么影响
以书思今，学以致用
–分层抽样

挂羊头卖狗肉的推理

实例
–公司与工会发生了摩擦，于是公司进行了一项“调查”来统计多少职员对工会不满。公司公布了这样的结论：“大多数（78%）的职员反对工会，所以有必要取消工会。”
–360打官司老败诉，腾讯打官司总胜诉，周鸿祎：“真的是东方不败！与腾讯强大的法务相比，我们实力不济，自愧不如！”
最普遍的表现是将看上去极像，而完全不同的两件事混淆在一起，得出了似是而非的推理。
笑一下
–小品《卖拐》中“脚麻”的桥段