何明科:用接地气的方式进行数据分析

和大家一起分享如何用土法炮制高大上的数据分析,不学高深的数学以及不掌握复杂的工具,一样可以完成炫目的数据分析

大家好,我给大家带来知乎 Live,主题为 —— 用接地气的方式进行数据分析

从业十几年,经历过咨询、投资及技术产品等不同职位,因为一直最爱用技术和数据的思路解决各类问题,走出了从管理和投资到产品和技术的逆向生长曲线。我目前在一家互联网公司从事产品技术工作。

虽然是最早期的知乎用户,但却是最近一年才开始认真答题。主要是集中在数据领域,利用数据分析和技术路线解决从吃喝玩乐到排队挤车,再到投资管理等多个领域。

本期 Live,我将和大家一起分享如何用土法炮制高大上的数据分析,不学高深的数学以及不掌握复杂的工具,一样可以完成炫目的数据分析,我在 Stanford MBA 中的最重要一门课「What is Critical Thinking 」中学习到即使是最简单的数据分析,背后的逻辑和严谨一样不能放松。发现生活中有趣的趋势,然后用数据去证明或者证伪。

为了让话题更具实战性,在这次 Live中,我会就最近完成的一个数据分析话题进行从构思到设计再到实操的完整分析。这个话题是关于人类的记忆力是不是在衰退,并且和最近的诸多热点都有关系。

主题

介于本人数学水平有限,不走算法路线,而专注的路线是提出有趣的假设。不知道算不算气宗和剑宗之分。所以今天的主题是关于找到有趣的假设,并利用简单但严谨的数据分析方法来证明或者证伪。

也许有人不信服,觉得没有复杂的算法,就做不出有洞察力的分析或者理论,但是:

  • 一些非常有影响力的社会学结论(比如:六度理论以及Weak Ties等等)都是靠有洞察力的假设以及简单的数据分析来完成的
  • 许多和数据不相关的职业,其中的大师都是高级的数据分析师,而且他们不用复杂的数据分析算法。比如:导演、政治家(毛泽东的农村调查)

目录

1、怎么找到有趣但不离谱的假设
2、收集数据要胆大和心细
3、设计论证方法要严谨而巧妙
4、工具虽然土但是威力不小

怎么找到有趣但不离谱的假设

多观察周围的人或事,特别是那些多次出现的事物,走心(比如:黄焖鸡米饭)。

抱歉单身狗,尽快找到另一半。著名的股票投资大师Peter Lynch就是不断在他老婆和女儿身上找到投资好标的,Shawn Parker也是从斯坦福女友那里发现了Facebook。

Critical Thinking and Hypothesis-driven:提问题、作假设、逻辑分析(冷血严谨)、自我校正(开放的心态)

一些常见的提出假设的错误:没有Benchmark、没有去除噪音、Survivor Bias(成功创业者都会演讲,所以在创业初就花大力气要练习演讲才能)、孕妇效应、辛普森悖论(张德培曾经排名第二,AB Test中找特别的用户)

目前在构思的一些有趣话题:

  • 科技的发展让人类的专注力及记忆力减弱,现象是每个热点的持续时间减少?
  • 越来越多的人靠朋友的朋友找到另一半?是受社交网络发达的影响吗?他们婚姻的结果如何?
  • 创业者在初始如何分配股份?
  • 周围的韩式料理越来越多,和韩国移民有关系。那最近增多的日式料理呢?

何明科:用接地气的方式进行数据分析

收集数据要胆大和心细

从小看NBA的最大感受:美国是一个高度依赖数据来决策的国家,而且收集数据非常细非常完善。

Moneyball是另外一个敢于大量收集数据然后利用简单的数据分析,在棒球场致胜的故事。另外一个故事,美国早期的对冲基金每周购买数百个地方的报纸来监控汽车租赁公司的业务,而现在我们将这个服务自动化,通过爬虫来实现。

大胆收集数据,要做难的事情:爬虫,调研,阅读几百份法律文件( [数据化解析国内风险投资现状 – 知乎专栏 ·「数据冰山」 : http://zhuanlan.zhihu.com/p/20907330])

十几年前CNZZ的雏形:[用户百分百:大数据改变管理咨询(一)http://zhuanlan.zhihu.com/p/20535942]

探讨人类记忆的这篇文章中,筛选热点事件非常关键:可比性、稳定性等等。比如:辛普森悖论

何明科:用接地气的方式进行数据分析

设计论证方法要严谨而巧妙

Network理论的起源,通过投行前联合承接IPO项目的关系,来分析他们之间的关系。

多年后的巧合,利用基金之间coinvest的关系来分析基金的生态:[基金恩怨情仇考(I): http://zhuanlan.zhihu.com/p/20714713]

最经典的:六度人脉的试验方法。匈牙利作家很早之前在小说中提出,Stanley Milgram在1929年实验基本验证,让实验者完成一个最终目标(把包裹寄到一个素不相识的人那里)。实验者只知道收件人的姓名、职业和大致位置。实验者先将包裹寄给自己朋友圈中根据名字最有可能认识目标的一个人,那个人再依次类推,下一个人再依次类推,直到包裹最终到达目标人手中。

探讨人类记忆的这篇文章中,选取百度指数,选择蹿红时间以及半衰期等等

何明科:用接地气的方式进行数据分析

工具虽然土但是威力不小

百度指数和Google Trends( http://zhuanlan.zhihu.com/p/20640434)

Ngram(https://zhuanlan.zhihu.com/p/20165483)

Excel(https://www.zhihu.com/question/21758700/answer/91385842)

可视化(wentu.io)

本文为专栏文章,来自:数据冰山,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/17395.html 。

(1)
数据冰山的头像数据冰山专栏
上一篇 2016-05-20 18:08
下一篇 2016-05-24 09:00

相关文章

关注我们
关注我们
分享本页
返回顶部