分享人:邹昕 来自:数据分析网专栏专家【董老师在硅谷】的微信公众号
07 年从清华生物系本科毕业,之后又学了五年生物,之后转行念了数据分析专业的硕士,毕业之后在 Discover 做信用卡风险控制,包括模型和数据分析方面的工作,今年年初跳槽到 Facebook 做数据分析。大组是负责用户增长 (Core Growth) 相关的,做的是好友关系、好友推荐系统相关的数据分析。
本次 Live 主要分享在互联网领域,是如何通过数据分析驱动用户增长的。
根据经验以如下几个问题展开:
* 互联网用户增长特点
* 数据分析在其中的作用
* 实验对产品开发的作用
* A/B 测试的作用和难点
* 数据驱动用户增长的局限性
* 彩蛋:以知乎为例,一些数据分析的机会
下面就是全文字分享,由作者独家授权【董老师在硅谷】发布。
行业特点
说到互联网产品的用户增长,可能大家都有所耳闻。与传统行业相比,互联网相关的产品有几个不一样的特点。一是由于网络效应,由于互联网相关产品更容易扩展,更有可能出现爆炸性增长的局面。二是互联网行业更容易出现赢者通吃的局面,比如优酷和土豆的合并,携程和去哪的合并,立马形成行业垄断。三是在行业发展前期一旦有一个好的产品领先,后来者就很难翻盘了,所以互联网行业会出现前期大量烧钱抢占市场和用户的局面,比如 Uber 是一个特别典型的例子。
Retention / 用户留存
对用户增长来说,什么是最重要的呢?有人说是用户最重要,有人说是 Acquisition 也就是新用户获取最重要。在 Facebook 内部来说,以及很多热门 Startup 来说,最重要的是 retention,也就是用户留存。这也是为什么十几年前,Facebook 刚创立的时候,大家通常用的指标都是注册用户。Mark Zuckerberg 从一开始就很明确,注册用户并不是最重要的,最重要的应该是活跃用户。
用户留存曲线
好的产品和不好的产品用户留存是什么样子的呢?有这里就需要提到一个概念 J 曲线。如下图所示,横轴是从注册开始到现在的天数,纵轴是活跃用户的比例。这里用的例子是月活用户,也就是说如果过去一个月之内你用过这个产品,那么你就算是一个 active user。很显然,注册开始第一天,大家都是月活,第二天第三天直到30天都是如此,从第31天开始,有一部分人不是月活了,因为他们只在第一天用了,之后就再也没用过,以此类推第32天33天等等。一个好的产品,应该是像黑色曲线这样,随着时间的推移会有下降,但是到一定程度之后会趋于跟 x 轴平行。如果你看到一条红线这样的用户留存曲线,那就你就需要好好研究一下你的产品了,因为这意味着随着时间的推移,所有注册用户都会放弃你的产品。那么即使你把全世界的人都抓来注册了,终究月活用户数也会变成0。
用户留存 vs. 新产品
推出新产品的时候,用户留存曲线是非常重要的,以确保有一个足够好的产品,接下来才是把这个产品推向更多用户的时候。其它互联网公司比如 Airbnb 也有类似的策略。当然不同的产品,关注的指标很有可能是不一样的。比如说微信,假如你看月活的话,那可能意义就不是很大了。一个月用一次微信的用户,说有不了什么问题,更应该关注的可能是日活,或者发了多少条信息这种。那么对于 Airbnb 来说,月活则是一个比较适用的指标,其它比如每个月有多少房间预订之类,也是应该关注的指标。
神奇时刻 — magic moment / Ahhhaa moment
假设现在你有一个很好的产品,用户注册之后过一了段时间也还是有很多人留下来继续使用。那么接下来怎么做用户增长?
很多社交网络产品都提到一个概念叫 magic moment,直译过来的话就是神奇时刻。什么算 magic moment 呢?比如对于 Facebook 来说,你注册之后,在上面看到你现实生活中认识的好友,看到他们的照片,状态等等。这个时候对新用户来说,心里想的是啊!原来 Facebook 是干这个用的。比如对于知乎来说,可能是在答了一个题之后,看到小红点显示有人点赞,或者是感谢,或者是关注等等。同样,对于LinkedIn,Twitter,微信,微博也是类似,新用户或者是找到他们想要联系的好友,或者是找到他们想要粉的人,这一时刻让用户有继续使用下去的动力。
例子 — 用户留存率 vs. 好友数
对于很多社交网络产品 比如说 LinkedIn 来说,一个很简单便是很有效的分析方法,就是看用户留存率跟好友数的关系。当你的好友数低于某一个值的时候,用户留存率会非常的低。当好友数量达到一定数量的时候,再增加好友数对留存率的影响就很小了。那么确定下来这个值之后,工程师们要做的就是以这个为目标进行各种产品改进、优化、新产品开发等等。有人可能会问了,这里面有个很显然的问题,就是你只能说明这是相关性,而不是因果性。但是最终解决办法其实很简单,不管 Facebook 也好,微信也好,如果你没有好友的话,肯定是没有人会继续用的。所以这里面肯定有因果性在里面。同时肯定也有相关性,很大程度上二者肯定是相互影响的,通常来说好友越多,更有使用产品的动力。产品使用的更好,好友也更多。
A/B 测试
上面一段提到在设定某一个目标之后,工程师们接下来就要通过各种产品改进、优化、新产品开发等,互联网公司基本上都是通过 A/B 测试来确定是否发布产品,是公司产品开发非常重要的一环。在湾区这边有一个 meetup 小组就是专门讲 A/B 测试的,像 Uber, LinkedIn, Netflix 等等都在这个小组介绍过各个公司是怎么做 A/B 测试的。
接下来就以 Airbnb 为例子来说明 A/B 测试为什么重要,如何做 A/B 测试,以及中间可能遇到的问题。
例子来源:http://nerds.airbnb.com/experiments-at-airbnb/
为什么要做实验
实验是最有效的证明因果关系而非相关性的工具。以 NBA 为例,数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。
根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。
A/B 测试的用处
对 Airbnb 来说,很多时候一个新产品的发布,是很难说明结果到底是新产品的呢,还是别的因素。如下图所示,红色部分是新产品发布和撤回的时间段,这期间的变化到底是因为产品呢,还是别的因素?有可能用户受到时间的影响,比如周中和周末的区别,是否假期,天气等等。对于 Airbnb 这种旅行相关的公司来说,这些外在影响尤其大。通过实验则可以把产品的影响跟别的外在因素的影响区分开,产品做一个小的改变,跟对照组进行对比,这就是 A/B 测试。
实验需要跑多久?
A/B 测试的老大难问题:实验跑多久最合适?结束太早可能产品的真正效果还没有足够时间体现出来,实验拖太长会影响产品迭代改进的效率,这对诸如 Airbnb 这样的初创公司还是 Facebook 这样讲究 move fast 的公司来说,都是很麻烦的事情。
例子 — 搜索价格范围
Airbnb 曾经测试过把价格选择范围从最高的$300改成$1000。一周之后,根据下图的红线显示,实验效果显著 (p<0.05),也就是说改成$1000之后预订会增加。但是事实上实验继续进行下去的话,你就发现这个改变其实是没有效果的,最终也没有统计显著 (p>0.05)。
不过虽然这个测试的结果是中性的,考虑到有一部分用户的确需有查找高端房源的需要,Airbnb 还是决定把最高搜索价格从$300改成了$1000。那么到底实验应该进行多久呢?通过各种复杂的统计分析,Airbnb 总结出了一套动态决定边界(Dynamic decision boundary),综合考虑p值和实验进行的天数。
全面理解实验结果
通常来说,选定一个或几个指标(metrics)来分析实验结果,以免主观挑选实验结果(cherry picking)。但是仅仅看一个指标也是不行的,很容易就错过全局,一叶瞕目。比如 Airbnb 做过一个非常大的改动,在用户搜索的结果显示里,更加强调房源的照片和在地图上显示的地点。项目非常大,大家都认为结果会很好,用户调研显示也是如此。
尽管如此,Airbnb 还是决定如常做一下 A/B 测试,然后发现了问题:结果基本是中性的。幸好 Airbnb 的数据科学家们并没有就此结束,相反,他们看了看不同的方面,包括在不同浏览器的效果,发现 IE 是最大问题所在。很快进一步发现,新产品在某些老版本的 IE 上会有 bug,以至于预订率了超过3%。修复了在 IE 上的 bug之后,立马预订率就变成提高超过2%,与其它浏览器上效果类似了。这是一个非常典型的例子。很多时候看到中性的实验效果,不妨根据不同的维度进行细分,比如浏览器、同家、用户类型等等。
问题: Twitter 2015 年用户增长为 11%,这是否存在增长的危机?为什么?
结果 too good to be true
不管是自己打造的 A/B 测试系统,还是使用第三方的系统,都是有可能出问题的。如果默认系统都是有效的话,有时候麻烦就来了。有时候可能是使用过程中出了问题,有时候可能是系统本身的问题。最简单的办法是跑个 A/A 测试,也就是实验组和对照组都是一样的产品,然后看系统结果怎么说。Airbnb 做过一系列 A/A 测试,发现在实验组和对照组的用户数量基本一致的时候,系统是正常工作的,显示中性的结果。但是当对照组的用户远超实验组(75% vs. 25%)的时候,结果显示高达-15%的偏差。最后发现原因在于对用户的追踪问题,很大一部分用户没有正常的记录到实验组里去。未必每一个公司都会碰到完全一样的问题,不过适当的进行 A/A 测试,确保系统正常工作是非常重要的。
据驱动用户增长的前提
首先需要有一个好的产品。其次在创业初期,所有人都需要有这个概念。最后需要要 infrastructure 的支持,诸如 logging,dashboard,A/B 测试系统等的建立。例如:Uber 的 A/B 测试系统
http://eng.uber.com/wp-content/uploads/2016/05/xp_platform_example.gif
彩蛋:知乎数据分析的机会
问答环节
Q: 数据分析的用户量达到多少,分析结果才靠谱?
A: 通常对大的互联网公司来说是百万级别,当然这对于多数公司是没法有这么大的用量的,所以通常情况下来说需要看产品本身用户量的大小,个人感觉一般一万以上是一个基准。当然除了用户量大小以外还需要看统计检验的显著性,以及实验的时间来综合考虑。
Q: 工作中主要使用的分析工具是什么?除了 Python, R, SQL,平时工作中是否还有更多或者更有针对性的工具使用要求?
A: 工作中最主要使用的分析工具是 SQL, SQL 和 SQL。通常 ad-hoc 的一些分析基本都是 SQL 来做,如果数据量大了之后通常就是 Hive,但是 Hive 基本语法跟 SQL 的类似的。再就是用 Python 写 pipeline,这里面 python的作用是写一个自动跑 SQL 的脚本,所以其实还是写 SQL。除此之外数据可视化也是一个比较重要的方面,通常 Excel 和 Tableau 是很有效的两个工具。也有人会用来 R 或者 Python 来做数据可视化这一部分。总体来说最基本也最重要的工具就是 SQL。
Q: Facebook 如何通过旗下不同平台 (messenger, WhatsApp, Snapchat, Facebook Timeline) 收集、管理和使用同一用户的信息。
A: 具体怎么收集和管理同一用户的信息不太清楚。如果用过 Facebook 和 Instagram 的话应该会发现如果在 Facebook 上加了一个好友,同时你们也上 Instagram 的话,那么会收到提醒说要不要 follow 他/她的 Instagram 之类。另外 Snapchat 不是 Facebook 旗下的 :)
Q: 一般如何选择 A/B testing 的 sample group
A: 涉及到以下几个方面,首先是需要考虑 sample size,可能一开始是 1%, 然后增加到更大比如 5%, 10%, 50% 之类。其次是需要考虑到产品会影响到哪一部分的用户,比如 iPhone 或者 Android 用户,或者是只影响到某一个国家等等。最后是需要考虑到 testing 的时间,根据不同产品不同测试的要求,可能是几天或者几周不等。
Q: Facebook 有什么著名的基于数据的 User Growth CampaignA: 一个例子是用户好友推荐系统。解释一下这个功能就是根据用户的情况来推荐好友,可能很多人非常不喜欢这个功能,比如说会觉得推荐的人不是很相关啊或者推荐了现男友的前女友啊或者前男友的现女友啊之类。当然推荐系统有很多提高的地方,但总体来说这个功能是非常成功的。一方面在几年前的 F8 大会上公司介绍过对新用户来说,在初期达到某一数量的好友数是非常重要的,这其中好友推荐系统就是一个很重要的功能,给用户省了很多事。另一方面在 Facebook 推出这个功能之后,别的很多公司也有类似的功能,比如 LinkedIn 推荐 connection, Airbnb 推荐房间等等。
A: 首先需要考虑的产品组设立的具体目标跟公司的总体目标是不是相一致的,如果提高了这个产品的具体目标,但是对公司总体的目标却没有影响,甚至是反面的影响,那就需要考虑一下哪里出了问题了。其次是设定了一个具体目标之后,最好在一段时间内坚持这个目标,而不是经常做一些改动,否则的话会影响到数据分析的效率,比如说要构建新的 dashboard/report/pipeline 之类。最后每过一段时间需要再回过头看具体产品组的目标跟公司的长期发展目标是不是一致的,包括 back test 以及 long term holdout 等测试。
Q: 一个优秀的数据分析师应该具有哪些基本功和特质?优秀的数据分析者和平庸的数据分析者的差距在哪里?
A: 一个优秀数据分析师具备的基本功首先是在技术上达到一定的要求,其次是对产品有一定的了解,包括产品开发从头到尾的整个流程,这是基本的要求。那么要成为一个优秀的数据分析者,我觉得最重要的一点是能够对身边的人产生影响。比如对工程师的影响,让他们也能通过数据分析来发现问题,因为他们是具体开发产品的,对产品的理解是非常深刻的(通常情况下对产品和细节的理解要比数据分析师深的多)。所以如果把自己的经验分享给工程师、产品经理等,让他们一起利用数据来分析问题解决问题,这样的话对开发、改进产品是非常有效的,会成为一个非常优秀的数据分析师(向这个目标努力)。
Q: 数据分析在产品改进、公司决策应当牌什么位置,当两者出现了矛盾的时候如何解决?
A: 通常来说对于短期目标来说是由数据分析的结果来决定的,当然前提数据分析的结果是正确有效的,这种情况下一般来说是数据说话。那么对于长期的目标来说数据分析的作用会小一些,更多的是由公司的决策层来决定整个方向。比如说互联网产品从桌面端向移动端的变化,这个通过数据分析是很难体现出来的,因为现有的数据不一定能说明将来的发展,当初大部分人使用电脑,但是最几年用户更多转到手机等移动端,那么这种情况是很难通过数据来体现的,这个时候就需要看决策层的眼光了。比如说从腾讯的重心从 QQ 转到微信,Facebook 从桌面端转到移动端这种大的方向转变,个人感觉数据分析起的决定性作用都比较小。
Q: 当前硅谷来说,数据分析的主流运用场景在哪里?未来数据分析的趋势是怎样的。
A: 主要几个场景:第一是各种 A/B testing,这是用得最多最广泛的场景,也就是产品改变好还是不好,都需要通过 A/B testing 来决定。另外一个就是通过数据分析来监控一些异常情况,通过过去的趋势来看是不是有异常情况,比如说过去一天或者一周用户突然增加了 10% 或者 减少了 10%,那么就需要通过数据分析来看这到底是正常的波动呢,还是某些方面出了问题。最后就是通过数据分析来寻找机会,比如产品哪些地方可以改进之类。未来数据分析的一个重要的趋势是如何从大量的数据里找出有用的信息,因为现在数据实在是太大太杂太乱太快了,如何从这些数据里挖掘出有价值的信息变得非常重要。另外一方面是如何根据产品的需求寻找新的数据来源,为改进产品服务。
Q: 数据分析项目(或产品)的研发过程中,分析师和业务人员有哪些合作?
A: 如果这里面的业务人员指的是产品经理以及工程团队的话,合作是非常紧密的。一个典型的研发过程是通过数据分析发现产品某个方面或者流程有改进的机会,然后产品经理以及工程团队(程序员)沟通是否可行,其中可能还会涉及到设计人员对产品的改进,最后由程序员来实现需求。接下来再通过实验比如 A/B 测试看效果,有需要的话会有多次的迭代、改进。效果好的话那么就可以发布新产品,同时后续还会通过数据分析来追踪产品的表现 (performance),整个流程下来数据分析跟产品经理、设计、程序员都是紧密相关的。如果说业务人员指的是运营相关的话,那基本是没太有什么交集的。
Q: 对于小公司、小行业来说,最大的竞争对手网站每天的日活量也就 10 万上下,这样想做数据分析,分析的用户量应该确定到多少呢?
A: 如果是做 A/B 测试的话,1 万以上的用户量差不多是下限了,再少如果几千的话,那需要测试的差异非常明显才能够比较明确的说这个差异是真的差异呢还是一些背景噪音。如果是做类似漏斗分析或者用户转化图这种的话,那么上千的用户量就可以开始有这个概念了。当然需要注意的是数据分析是有局限性在里面的,尤其对于产品、公司发展初期来说,不要把过多的精力放在数据分析上面去追求统计显著之类,而应该是更多的打磨好产品,找到产品合适的市场。
Q: 现在的工作都是 SQL 做 CRM 的 report,有 adhoc 有 regular,但觉得都没什么创造性,很机械没前途啊。。。该怎么往更偏 solution 方向的职位跳呢?
A: 需要改进的方面最重要的一点是对产品的理解。因为数据分析的最终目的是改进产品本身,或者说让更多的人使用产品。不管做 report 也好 adhoc 也好,数据分析最重要的结果是这些对产品有什么意义,比如提供哪些可以改进的方面,哪个步骤是有问题的等等。为了做到这一点首先就需要对产品有一个很深刻的了解,而不仅仅是把目光集中在数据分析这一点上。另外还可以通过自己的特长和经验来影响合作的人,比如说产品经理、程序师等,让他们也能方便的使用数据来帮助产品开发。
Q: 在金融场景中,由于风险的滞后性,导致测试周期非常长,有什么方法能较好解决这类问题吗?
A: 总来说这是由于行业特性决定的,基本上很难有什么好的解决办法。我之前在信用卡公司做风险控制,比如说看用户的坏帐率,基本上都是看长期的结果,比如说 6 个月,一年或者两年这种。再考虑到开始设置实验对照组,模型开发、数据分析的时间,还有之后看模型表现 (performance) 的时间,整个过程就更加的长了。假设是看 6 个月的风险,现在开始设置实验对照组,那么要能看到用户的表现的话至少需要等到 6 个月之后,再开始花几个月半年(这算比较快的)做模型和数据分析,之后再等 6 个月看结果,所以一个项目完整的流程下来都是至少一两年的。基本上是由行业特性决定的,不可能像互联网行业的一些项目周期这么快。
Q: 想问怎么看待 FB 用户增长降低,原生内容分享减缓,用户流向 Instagram 的情况呢?
A: 首先根据每年的公开数据来看 FB 用户的增长并没有降低,当然这个增长速度是不可能一直持续增长十几年,因为世界上一共就那么多人。至于原生内容分享减缓,这个的确有一些这样的报道,个人感觉对于 Social network 来说基本都会有这样的趋势,比如说十几年前最开始大家用 Myspace,然后 Facebook 出来之后大家觉得这个比较酷就都使用 Facebook 了,随后有 Instagram, Snapchat 等的出现,用户又有一部分转到这些。国内的互联网市场基本也有这个一趋势,比如十几年前我上大学的时候校内网也就是后来的人人网非常的火爆,后来微信出来之后大家一窝蜂的涌到了微信。对于这种情况来说,就公司领导层的动作来看一个应对方法就是通过收购,比如 Instagram 和 Whatsapp 都被收购了,所以如果说有内容流向 Instagram 的话那是没什么太大的问题的。此外根据公开的报道,对收购 Snapchat 也是有过兴趣的,只是最后没有谈成。第二个应对就是公司自己需要持续开发新的产品。比如说微信是一个很好的例子,腾讯并没有因为有 QQ 的存在就一直把目光局限在这上面,而是从自己内部打破,开发出了微信这款神级产品。因为对互联网产品业说,如果停步不前不保持改变的话,那么终究是会被别人打破超过的。与其这样不如自己开发出新的产品来超过原来的产品。
Q: 2B 的业务有成熟的数据分析驱动客户的案例么?
A: 一时想不起来有特别典型的案例,感觉比较接近一点是 Uber。虽然 Uber 的最终目的是给打车的人提供服务,但是他们很重要的一点策略是通过先打开大量的司机的市场。因为司机数量上来之后,首先是大家会发现打车的等待时间会变得非常短,另一方面是司机之间的竞争变得更强,更容易提供优质的服务,所以客户的体验会有一个大大的提高。另外一个例子大家可以关注一下国内的一个公司收 GrowingIO,是 LinkedIn 前 business analytics 老大回国创立的 startup,他们主要做的是给公司提供数据埋点、分析的服务,大家可以关注一下,我觉得他们长期来看是会有一个很好的发展的。
Q: 能分享一下在工作中各项任务的时间占比例吗?
A: 这个根据不同的时间段会有不同。 如果是在定期做规划的时候,会有很多跟产品组其他人员的沟通,比如说产品经理、工程人员、设计等,大概 50% 的时间的样子。另外一半的时间就是把之前一段时间的分析整理总结一下,通过这些结果来找到下一个阶段的产品需要改进、集中资源的地方。这个时间段的话,那基本是大概 20% 的时间用来跟产品组其他人员沟通,剩下 80% 的时间做分析。做分析的时间里面大概一半是一些 adhoc analysis,20%-30% 做一些对长期来看有好处的工作,比如说 pipeline 的工作把一些过程自动化。还有一部分时间就是看已有的一些 report/dashboard,包括监测有没有异常啊,产品的 performance 是否符合预期等等。
Q: 请问国内哪些行业对数据分析师需求量特别大?游戏行业怎么样?
A: 个人了解的比较多的是互联网和金融行业,当然这个是有 bias 的,因为我之前在金融行业,现在在互联网行业,那么自然认识的这两个行业的人也会比较多,国内联系我的猎头基本也是这两个方面的。比如说一些机会像阿里,支付宝,蚂蚁金服等,要么是跟互联网相关,要么是跟金融相关,要么就是互联网金融。至于游戏行业的话对于国内不太了解,美国这边也有一些相关的工作职位。不过个人感觉总体来说最大的还是互联网和金融这两个行业,此外还有管理咨询行业也增加了很多数据分析相关的职位。
Q: 一个优化目标对应的可验证的改进点有很多,比如一个简单的注册指标,需要考虑注册界面的各个因素,还有很多其他因素。请问怎么确定应该验证哪些点?以及如何确定验证的优先级?
A: 首先需要考虑的是做一个整个流程的数据,比如以注册为例,有多少人到这个页面,多少人开始这个流程,每一步一直到最后有多少人确认了注册整个过程。之后看一下各个步骤的转化率,找到特别低的一个或者步骤。另外还可以跟类似的产品的对比,不同地区、不同用户的比较等等,看哪一个步骤的转化率相对来说特别低,那么这就需要优先考虑的地方。
Q: 数据分析能用在微信公众号或者视频内容吗?如果可以,能分别举个例子吗?
A: 关于微信公众号或者视频内容我个人没有什么经验,公众号也是前段时间才刚开的。不过我感觉跟互联网产品是相通的,最重要的一点还是 retention retention retention。初期的时候需要保证有一个好产品,有好的内容,确保用户来了之后会留下来继续保持关注你的内容。如果没有做到这一点的话,那很有可能拉来很多新用户,但是一段时间之后他们发现内容没有什么特别的,那么接下来要么就取消关注,要么就不再打开内容了。所以最开始需要先把内容做好,在保证留存率的基础上再开始做推广。当然我对这方面的产品并不太熟悉,只是根据其它互联网产品的经验的一些想法。
Q: 机器学习中的算法在数据分析中的应用现状是怎样的,所占比重大吗?会与产品的设计挂钩吗?邹老师怎么看机器学习在数据分析中的前景
A: 机器学习跟数据分析二者是相关,因为机器学习的算法做出来最终终要看的是对产品的影响。比如说一个排序系统,最终要看它是否增加了更多的用户,增加了用户的活跃度、增加了用户的粘性。机器学习对产品的影响我觉得是长期来看肯定是会非常大的,比如说 Facebook 的 Newsfeed,它不是按时间来排序的,因为最近发生的事情不一定是用户最关心的。这个产品不管对公司来说还是对用户来说都是有好处的。比如说公司可以有巨大的广告机会在里面。对用户来说可以优先看到机器学习排序出来的最重要、用户最感兴趣的那部分内容。当然这个机器学习的结果永远不会是完美的,需要不停的改进,也正因为这样个人以为它的发展前景是非常好的。跟产品设计是直接相关的,一般来说机器学习这一块是跟工程组在一起的,也就是程序员/码工们一起的,跟产品的联系非常紧密。(知乎也可以按机器学习的结果来排序 Newsfeed,不过不是强制的。个人猜测终有一天会是强制按机器学习的结果来排序)
Q: 硅谷现在有哪些专门做数据的公司?主要业务是什么呢?
A: 最有名的应该是 Palantir Technologies 了,专门给政府、军队、国防部门提供数据服务的,创始人是 Paypal 黑帮那几个像 Peter Thiel 等等。非常有意思的一个独角兽。
Q: 工作中有遇到用户增长/产品数据分析的KPI和公司sales business KPI不同的情况。想问邹老师有没有遇到过类似的情况,有没有协调的方法?
A: 这个在现在的公司没有遇到过,因为我们产品组这边跟 sales 基本是没什么交集的,所以也不存在 KPI 打架的情况。在之前公司有 risk 跟 marketinng 的 KPI 不同的情况。因为 risk 部门的一指标就是用户的风险高低,也就是最后看到坏帐率,而对于 marketing 来说最重要的是有多少新增用户,这两个很多时候是相爱相杀的。如果需要获取更多的新用户的话,那很有可能就要降低风控的标准,坏帐率就上去了。如果要控制坏帐率在一个较低的水准的话,那么获取新用户的难度就加大了,因为毕竟只有那么优质用户在外面,要么用高成本获取新的优质用户,比如说各种 promotion,要么就只能降低风控 (underwriting) 的标准了。碰到这种情况的话基本根数据分析关系就不是太大了,主要是老大们说了算。
Q: 请问数据分析师从长远来看会取代传统的user 和 user testing吗?
A: 我觉得暂时来看是没法取代的,因为数据分析更侧重在产品这一块,而 user research 或者 user testing 更侧重在用户这一块。虽然对产品的分析可以了解到一些用户的想法,user research 还是更直接一点,比如说用户的想法这种是很难通过产品本身的分析来发现的。再者 user research 还有可能发现一些新的领域,也是对现有产品分析的一个补充。所以个人感觉几年之内是没法取代的。
Q: 请问有没有数据分析相关的专业书籍或者书籍推荐呢?
A: 首先可以参考统计基本的东西,说实话我自己没有看过什么跟数据分析相关的专业书籍,只是学过一些统计的东西。至于数据分析相关的可以推荐的话首先可以参考一下管理咨询方面的案例,从这里面找找灵感,比如 Case in Point。其次除了书籍以外还可以参考一些网上的信息,比如知乎也好一些微信公众号也好,都可以找到一些很不错的资源,有时候知识系统更新会比看书更快一点。
Q: 请问知道一些在学术机构应用数据分析的案例吗?比如科学计量或者数据管理一类的.
A: 对学术界不太了解具体的案例,不过就我所知现在很多商学院发 paper 什么的也是有数据支持的话会更容易发好杂志一些,别的像计量相关的学科也有很多都要用到数据分析,算是一个趋势。
Q: 能分享一下国内或者国外数据分析这个行业职业发展的情况吗,比如什么行业/公司会设置专职的数据分析职位,发展情况如何呢
A: 首先讲讲在美国这边的发展,基本上职位空缺是挺多的,主要是集中在互联网和金融行业,现在管理咨询行业相关的职位也越来越多,至少近期几年来看发展情况还是相当不错的(当然没法跟码工比了)。国内的话也是集中在互联网和金融行业,比如阿里、蚂蚁等等。
Q: 在用户推荐上,如何解决多个不同场景推荐问题,场景可能会非常多,几十个,几百个,上千数万。A: 对用户推荐系统的开发不熟,个人感觉是针对不同场景,可以把场景作为一个输入 (input),这样来达到每个场景有针对性的推荐。
Q: 数据分析跟产品经理的配合是怎样的?目前很多互联网公司都还没有数据分析师,在有数据分析师的公司,数据分析师和产品的合作方式也不是很清晰。
A: 不同的产品或者不同的组会有区别,也要考虑到产品经理和做数据分析对产品以及数据的理解。通常来说二者是合作的关系,一个比较理想的合作流程是数据分析师基于对产品的理解,通过数据分析发现产品可以改进的地方,同时产品经理也懂数据,这样沟通起来更顺畅。当然具体到实际工作中会有区别,比如说如果产品经理比较资深的话可能更多的是产品经理提出需求,然后数据分析师来回答这些问题。反过来如果数据分析师比较资深的话,那么可能会更独立一点,不太理会产品经理的问题。总体来说比较理想的状况是二者互相合作,同时对对方的领域也有一定的理解,便于沟通。
Q: 如Facebook一开始没那么多的用户量,只有哈佛学生时数据分析还能用吗?数据分析是只能在用户量十万以上时才能发挥最大作用吗?
A: 在产品用户量非常少的情况下,只需要做非常非常基本的数据分析,也就是用户来使用产品之后是否留下来。其它的比如 A/B test 也好,通过数据分析找机会也好都是不需要的,因为这些涉及到很多成本,尤其是时间上的成本对产品初期的快速迭代是有害的。只有在用户量达到一定阶段之后,才需要 A/B test 之类的介入,以达到数据分析的最大作用。
Q: 一家互联网公司的数据分析团队应占这家公司员工的比重是多大呢?对于小型初创公司,数据分析团队是必要的吗?
A: 我觉得理想的比例是这样的,一个产品经理,一到两个数据分析,10-20 个工程师,以及一个设计方面的。对于小型初创公司来说,并不需要数据分析团队,而是团队里每一个人都应该懂一些最基本的数据分析(像上一条提到的,这时候的数据分析也不需要太复杂),然后通过这些基本的分析把握一个大的方向就可以了。像 A/B test 这种更多的是进行一些优化这种,对于小型初创公司来说是没有必要甚至有害的。如果产品的效果需要做 A/B test 才能看出差异的话,那么用户增长可能也是很缓慢,对于初创公司来说是很危险的。
Q: 做数据分析如果想进Facebook的话,您有什么建议吗?
招聘时看重哪些标准呢?比如说发论文参加比赛之类的。录用国内的学生可能性大吗?
A: 如果指的是做数据分析也就是 analytics 方面的话,发论文参加比赛包括算法比赛,Kaggle 之类用处是不大的。最重要的几个方面,一是对产品的理解,比如说用什么指标来看产品的好坏,怎么设计实验,如何分析实验结果等等。二是技术方面的,这个最主要的就是写 SQL 了。另外还有就是一些基本的数学、概率、统计方面的知识,以确保做的分析是正确的。对于从国内直接过来的机会相对比较小,一是因为不同的工作环境、文化的差异,二是涉及到工作签证的问题。现在工作签证(H1B)都是需要抽签的,也给国内直接应聘美国这边的工作带来了很大的障碍,暂时还没有接触到做数据分析的这样的例子。
Q: 传统行业(零售)的区域销售经理,平时也会用Excel分析自己的销售数据,如何转行到互联网企业做数据分析呢?是不是去读一个专门的硕士比较好呢?刚才听您讲的内容,感觉很多方法都和传统行业是相通的。应用场景不一样。
A: 首先最重要的一点是技术方面需要一个变化,最基本的 SQL 是需要会的,Excel 是肯定不够的,其次别的诸如会 Python 之类也是很有帮助的。如果有一些大数据方面的经验比如 Hive 之类也是很有帮助的。从传统行业到互联网行业做数据分析的思路应该是有很多相通的地方的,需要加强的更多的是对产品的理解,数据来源的理解。至于读一个专门的硕士的话我觉得是没有特别的必要,当然如果时间短见效快的话可以考虑,可以参考一下以前毕业生的去向,如果很大一部分都去了互联网行业的话那可以考虑,如果只有很少一部分甚至没有毕业生去这个行业,那就要谨慎考虑了。你可以用数据分析的思路研究一下相关项目。
Q: 除了职业发展相关,从你的经验看,数据分析(或者相关的工具方法)在生活中有没有应用的场景,帮助个人提高效率, 理财之类。
A: 这个实在是没有想到什么好的例子。
Q: 请问如何培养自己数据分析的思维?感觉数据分析需要有很全面,逻辑的思维?
A: 的确如此,数据分析需要很全面、逻辑的思维,这也是为什么这边数据分析招的很多人并不是从统计专业过来的,因为传统来说统计跟数据分析完全相关的,但其实不完全是这样,统计对数据分析来说更多是一个基础,还需要看分析的思路。很多以前一些理工科的比如说学物理啊之类的在做这一块。比如说以前读 PhD 的时候一些研究问题的思路是很有效的,虽然中途 quit 了,但是后来工作的时候发现这些提出问题解决问题的思路是很相通很有帮助的。至于如何培养自己数据分析的思维,我觉得最有效的办法是去念一个 PhD(开个玩笑,念 PhD 时间实在是太长了,五六年就过去了,还是不要念了)。我在之前的一篇文章里提到一个例子,也就是在使用 google map 的时候,到了目的地之后会显示目的地的街景,那么这个时候你就可以问自己很多问题,比如说为什么要显示街景,除了街景还可以显示什么?比如显示附近的停车场?那么什么时候应该显示目的地的街景,什么时候应该显示附近的停车场,如果来测试哪个效果好等等。就跟小孩子一样多问几个为什么,平时多做这种思维训练还是很有帮助的。
本文为专栏文章,来自:董飞,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/20723.html 。