创业公司的数据课讲点啥？

创业公司数据培训课程会面向哪些人，有哪些不同的内容，怎么讲才有效果？

以往的文章曾经提到创业公司数据落地的三板斧：数据理念的推广、数据价值的展示、文化制度的要求。

数据理念推广这部分有一个重要内容，就是数据相关培训，为此曾在公司内部讲过一年的数据课，每周一次，面向公司各个层面的同事，内容包括数据分析，机器学习，量化决策等不同主题。

过去两周访问了加州的几个学校，遇到了一些老师和朋友，聊到数据教育的问题，收获不少新鲜想法，很受启发，也借机会梳理了一下在创业公司的数据课中面对不同人都讲了什么？

按工作职能分，参与的人主要有以下四类，下面会分别说明：

各团队负责人
一线工作人员
开发工程师
数据团队成员

1.各团队负责人

各团队负责人很多时候是数据的消费者，首先是要学会看报表。比如Vintage图，留存率图这些报表，一开始不是特别容易理解，要细致的一点一点讲明白，还要看出意义。

看报表的核心是做细分，然后做对比。对比不同行业，不同地区，不同时间，企业内外，找出差距，定位问题，当数据的消费者有更清晰的思路时，就可以提出更加合理的需求，即节省数据团队的时间，也提升自己团队的效率。

各个团队负责人重要的工作就是做各种决策，包括方向性的决策和操作性的决策。相比传统成熟行业，创业公司的决策场景，会有更多的不确定性，创业就是在试错，这就需要了解一些风险决策的思想和方法。

每个决策都可能有不同的结果，判断一个决策好不好，不是只看最后结果，就像卖了保险，最后没有出险赔偿，不能说买保险这个决策是错误的，很多时候未来是不能预测，只要在平均期望上达到最佳就可以，不能以成败论英雄，这个主题可以另开一篇，更加深入的探讨一下。

给业务人员讲概率，风险，决策的内容，不能讲的太理论，就像加州大学戴维斯分校的蔡知令老师所说：统计知识要讲的让祖母也听得懂，才能影响更多的人，才真的有用。他在戴维斯商学院给MBA学生讲授统计课，被MBA学生14次评选为年度教师，除了学术严谨之外，学生能够听懂，并且用在自己的工作是更主要的原因。

这方面还需要不断的探索和总结，一个例子对于知识点需要做适当的简化，但又能体现出核心的思想，这是不容易的，前辈看似信手拈来的例子，其实背后也是几经挑选和打磨，才能拿出来分享的。

2.一线工作人员

一线人员包括财务，账务，客服，运营等各个部门，对于创业公司来说，可能还没有非常完善的后台系统，很多时候需要Excel操作很多工作，这时候学习一些基本的Excel技巧，就能大大提高工作效率，同时也减少人员的流失。

这个内容里面包括一些主要的函数，比如vlookup，match，相对引用的公式，透视图，透视表等，网上有很多Excel课程，但是人们往往没有毅力学下去，或者看了之后在工作中用不起来。

所以这种培训不能只是讲Excel功能，只讲讲回头就忘了，而是先对照实际工作流程，找到典型的重复工作场景，实际案例，再结合excel功能来讲。只有在每日面对的繁重工作瞬间完成的那一霎那，人们才能真正体会这些课程的作用。

3.开发工程师

公司开发工程师使用python做开发，数据团队的分析师也是用python做数据处理和建模，天然在工具上没有障碍，数据团队相互学习分享的时候，也会吸引开发的工程师一起交流，一方面开发工程师了解基本数据概念和方法后，在某些后台功能的开发时，可以和数据团队更好的衔接，对于非常有兴趣，深入钻研的同学，也会有机会转到数据团队来工作。

这个方面的内容包括基本的统计概率知识，比如不同的分布，均值，方差，估计等，这里比较推荐一本参考书，《Think Stats : Probability and Statistics for Programmers》，以python为工具来讲解统计的基础知识，作者还有一系列的相关书籍，都是以python为工具，比较推荐。

另外也会有机器学习相关的内容，包括python的scikit-learn库及其相关概念的介绍，scikit-learn库的帮助文档非常好，不仅有库函数的介绍，还有机器学习相关算法的介绍，是个很好的入门教材。

4.数据团队成员

数据团队内部的培训更多的是教学相长的方式，每个人都要自学，自己尝试实践，然后准备自己的主题，把学习的结果和经验贡献给其他人。

这种方式不仅提高了团队整体的学习效率，也能改善主讲人个人的学习效果，从学习金子塔可以看出，学习内容留存率最高的就是教授给他人，这也是教学相长的一个体现。

数据相关的课程网上有很多，但其中最难讲，也比较少讲的就是数据诊断清理。斯坦福统计教授David Donoho去年在他的文章《数据科学50年》中，也提到了这个问题。诊断，清理，整合数据在数据工作占到70%以上时间，对于结果的影响很多时候也超过模型的选择，但是在实际数据课程中却比较少提及。

这其中原因包括“教”和“学”两个方面，一方面可这个工作有更多经验性的内容，不像讲模型算法那么清晰明了，不好讲；另一方面这些工作都是平时所说的脏活累活，不像建模算法那么高大上，刚入门的同学反而不愿意听这部分内容。

可能在工作中会对于不同数据工具这部分多有针对性内容需要练习，SAS中就是DATA步的工作，在R里有reshape，dplyr包，在Python里有pandas包，在Spark里也有spark sql模块，熟练运用这些工具，把数据像削瓜切菜一样，整成不同的丁丁快快，才能准备好进入下一个步骤“炒菜” – 分析建模。

这部分如果是做成课程的话，最好不要每个命令用一个单独的数据集，而是使用一个完整的数据集，针对一个建模目标，模拟实际情况，覆盖主要的数据处理命令和函数，这样练习的人会更有实战的体会，更接近实际的需要。

小结

创业企业变化快，情况各异，大家都可以尝试和寻找适合自己企业的数据课程内容和方法，但最终目的还是让不同人都能体会数据的好处，不求高深，只求对工作有用，让“数据”这个词更加深入人心。

推荐阅读：理念，价值，制度 – 数据落地三板斧