创业公司什么阶段需要数据科学家？

为什么数据科学对创业公司如此重要?在什么阶段公司应该开始重视数据科学?公司应该把数据科学置于怎样的位置?如何构建富有数据科学气息的公司文化?编者按作为一个创业者，你是否也有以上的问题呢?

作为一个数据求职者，你是否愿意申请创业公司?

Instacart数据科学副总裁Jeremy Stanley和前LinkedIn数据领导Daniel Tunkelang的这篇文章，可以解答你的所有问题!

很难相信“数据科学家”从2008年才作为一个真实的职位存在。Facebook的Jeff Hammerbacher和LinkedIn的DJ Patil共同创造了这个术语，以把握横跨分析，工程和产品三个领域的技能的需求。今天，对数据科学家的需求不断增长，更需要进一步了解如何让这些团队走向成功。我们两个人见证并经历过各种公司在不同行业和不同成长阶段中所遇到的成功，挫折，和窘境。在本文中，我们总结了一些建议给想要建立数据科学团队的创业公司。

你想要实现什么?

数据科学承担着两个重要但不尽相同的职责：改善客户使用的产品，和优化企业的业务决策。• 数据产品使用数据科学和工程来提高产品性能，通常采用更好的搜索结果，建议和自动决策的形式来实现。• 决策科学使用数据来分析业务指标(如增长，参与度，盈利能力驱动因素和用户反馈)提供相关战略和关键业务决策。这种区分可能听起来很简单，但是当建立和发展数据科学团队时，这是一个重要的区别。让我们仔细看看这两个领域。

依托数据科学打造更好的产品

数据产品利用数据科学来提高产品性能。这是一个良性循环，从收集产品使用数据，成为算法的，再为用户提供更好的体验。在收集数据之前会发生什么?产品的第一步需要解决数据科学中的“冷启动”问题：它必须提供一个好的体验，来启动数据收集和数据驱动改进的良性循环。这取决于产品经理和工程师来能否实施好的解决方案。例如，当一位Instacart用户访问网站时，应用程序会在“再次购买”标题下显示最近购买的杂货。这是一个令用户体验极佳的功能，但它几乎不需要数据科学或许多数据。如果向用户推荐没有买过的产品时，数据科学就开始了。这样做需要分析所有用户的购买行为，确定哪些用户拥有相似的消费习惯，并且最终基于类似用户过去购买记录来推荐产品。这就是数据科学使用数据创造价值的地方，使用户能够轻松发现他们可能没有找到的新产品。为了改进产品，数据科学家们必须与工程师密切合作并不断合作。同时需要数据科学家决定是否独自提升产品体验或与实施它们的工程师合作。虽然两者都可以达到目的，但是流程的规范化并在公司中建立共同的期望与愿景是很重要的。否则，你会挣扎于改进产品流程，那些有才华的数据科学家感觉到效率低下并不受到重视直到最终失去他们。

利用数据科学做出更好的决定

决策科学利用数据分析和可视化来分析业务和制定决策。决策者可以是公司中的任何角色：从产品经理确定如何在路线图上设置优先级到执行团队做公司的战略决策。

决策科学涉及问题范围很广，但它们往往有几个特点。它们来自以前公司不需要解决的小问题。它们通常是主观的，需要数据科学家处理未知变量和缺失的内容。它们很复杂，有许多不确定性并缺乏清晰的因果关系。同时，决策科学问题是可衡量的和有影响力的。

上述听起来很像数据分析，分析和决策科学之间的区别确实并不总是很清楚。然而，决策科学应该做的不仅仅是生成报告和打分牌。数据科学家不应该使用现成的商业智能工具来完成工作。

在LinkedIn，执行团队使用决策科学来做出关键的业务决策，例如关于会员资料在搜索结果中的可见性。历史上，只有付费用户才能在其扩展(第三级)网络中查看所有人的完整个人资料。可见性规则很复杂，LinkedIn希望简化这些规则，但不能以损害其收入的方式作为代价，那样做赌注是巨大的。建议的显示设定模式是根据使用情况设定未付费使用者的每月使用上限，LinkedIn的决策科学家模拟了这种变化的影响，使用历史行为预测这种模式对收入和用户参与的影响。分析需要基于在模型中上推断过去的行为，以预测另一个完全不同的行为。尽管如此，分析流程依旧可以推进。结果不仅对业务是积极的，而且令数百万用户感到兴奋，消除了产品开发中的信息的复杂性。有些人抱怨设定上限值的做法，但那些人正是LinkedIn认为应该支付平台的使用的用户。在决策科学的辅助下。该项目取得了成功。不是所有的决定都需要决策科学的长枪火炮。有些决定太细微甚至无法被证实。其他决策可能很重要，但业务可能缺乏有意义的数据来分析它们。在这些情况下，企业需要依靠直觉和实验。好的决策科学家知道自己的局限性，并承认他们的努力适得其反。虽然决策科学和数据产品需要一些相同的技能，但数据科学家很少能在这两个方面表现出色。决策科学取决于商业和产品意识，系统思维和强大的沟通能力。数据产品需要机器学习知识和生产级工程技能。如果你有一个小的数据科学团队，你可能需要找到在两方面游刃有余的超级明星。但是当扩展团队时，专注于其中一方面更受到青睐。

你应该建立数据科学团队吗?

数据科学不适合每个人。除非它对你的成功至关重要，否则它只是一个奢侈的消遣。

在投资建立数据科学团队之前，您应该问自己这四个问题：

1 你是否致力使用数据科学来辅助战略决策或构建数据产品?

如果你不致力于使用数据科学来实现这些上述目标之一，那么不要雇用数据科学家。

他们可以帮助您做出战略决策，但只有当您致力于实现一种由数据驱动的决策文化。在第一天您可能不需要他们，但是您需要时间雇用合适的人，他们也需要时间了解您的数据和您的业务。你需要所有这些，才能应用数据科学来推动决策。

数据产品可以创造价值，并通过改进优化，相关性等吸引用户。如果这些在您的产品路线图上，您应该尽早带来数据科学家做出设计决定，帮助您达到长期上的成功。数据科学家可以做出关于产品设计，数据收集和系统架构的关键决策，这些都是构建华丽外观产品的关键基础。

2 你能够收集所需的数据并采取行动吗?

创始工程师可以创建具有少量产品和设计指导的MVP产品。数据科学需要数据，只有测量和尺度。推荐系统依赖于检测您的产品来跟踪用户行为。优化业务决策取决于关键活动和产出的细枝末节。

“但收集数据是不够的。数据科学只在数据驱动时才有意义。”数据应辅助产品的迭代，并推动关键绩效指标(KPI)。数据的检测需要整个公司参与，以确定每个产品需要收集的数据以及建立收集和维护数据的基础设施。这其中需要数据科学家，工程师和产品经理之间的协作并交替参与执行。

同样，数据驱动的决策需要自上而下的参与承担。从CEO下来，公司必须承诺使用数据做出决策，而不是基于最高薪水的人的意见(或HiPPO)。

3.你的数据中有足够的信号来获得有意义的洞察吗?

许多人将大数据等同于数据科学，但大小不是一切。数据科学是将数据中的信号与噪声分离。

“可用信号不仅取决于数据量，而且取决于信噪比。”

例如，一个广告产品可能会收集来自数十亿次展示事件的数据，但在用户与广告互动的极少数情况下，数据才会传送信号。因此，大量的数据仅产生少量的信号。没有一个数据科学会从大数据集中挑出深刻的见解，除非有大量的信号。

4.数据科学需要成为的你的核心能力吗?还是你可以外包它?

构建数据科学团队是艰难和昂贵的。如果你可以外包你的数据科学需求，那么你或许应该。一个选择是合理使用顾问。更好的方法是使用现成的解决方案，该解决方案使用API来接收数据，构建模型，自动化操作以及报告关键分析。可能没有一个解决方案完全针对您的需求，但它通常值得妥协，以加快您的业务，并让您的核心团队专注于它可以增加最大的价值的领域。

你什么时候需要数据科学成为核心能力?如果数据科学正在解决对你的成功至关重要的问题，那么你就不能外包它。此外，现成的解决方案往往是宽泛的。如果您的企业采取独特的方法解决问题(例如收集新的数据或以新颖的方式使用结果)，现成的解决方案不太可能灵活适应它。

你什么时候应该开始?

“数据科学需要从数据到科学，大多数公司在一天内没有太多数据。”

不要雇用数据负责人或建立一个团队，直到你有他们的工作要做。同时，确保您早期收集关键数据，以便该团队在准备就绪后可以产生影响。如果您还没有数据，那么谁将回答哪些数据需要获取以及何时获取数据的问题?那个人不一定是数据科学家。但最好是了解不同数据集潜力的人，并能对数据投资战略做出艰难的决策。如果你已经知道你要花费大量的金钱和时间进行数据采集，那么你可能需要在招聘第一个数据科学家时至少进行一次最小的投资。您可能需要立即获取数据，因为您的业务涉及交付数据产品。但更有可能的是，你的最小可行产品(MVP)不会是数据驱动的。相反，你会赌注本能，看看市场是否验证了本能。在这种情况下，过早投资于数据采集和数据科学将花费你宝贵的金钱和时间，应该把你的MVP推向市场。一旦您拥有(或计划打算)数据科学家合作，并准备提交重要的产品，工程和业务资源，以支持您的数据科学努力，您应该迅速开始建立一个团队。

灌输重视数据的文化永远不会太早。从收购到产品发布的业务决策应基于数据而不是意见。将数据科学更早引入一个公司有助于将数据打造为一流的资产。但是不要急于招聘，因为数据科学是性感的。考虑到这个功能区域的嗡嗡声，许多人对构建数据科学团队感到紧迫感。拥有雄心壮志的公司渴望招聘那些从所有数据中获得洞察力的人。但是建立一个团队太早是一个昂贵的开销，将削弱你的天赋，可能有持久的消极文化影响。如果要我们给出一个总体的建议，那就是在您验证您的MVP后，考虑是否投资数据科学。成功的产品发布应该生成足够的数据来学习，你需要跟上数据流并从中提取价值和洞见。

数据科学在你公司中的位置?

将数据科学引入你的组织结构对于团队，其他职能部门以及你的业务的整体成功来说非常重要。有三种常见的方法：独立团队，嵌入式模型和集成团队。每个都有利弊，所以让我们来看看几种可能性。

独立团队

在独立模型中，你的数据科学团队充当与工程平行的自主单元。数据科学的领导者是一个关键的领导者，通常向产品或工程负责人报告，甚至直接向CEO报告。

独立模型的优势是自主性。这种类型的数据科学团队能够很好地解决它认为最有价值的任何问题。独立的数据科学团队也有一个象征性的优势：它表明该公司将数据视为一流的资产，这将有助于他们吸引世界级的人才。

独立模型特别适合决策科学团队。即使决策科学家与产品团队密切合作，他们的独立性帮助他们做出艰难的建议，如告诉PMs他们的产品的指标不够好，不足以支持产品发布。决策科学家还从异花授粉中受益匪浅，既了解不同产品指标如何相互依赖，以及分享更多关于实验和数据分析的一般学习。

自主权的反面是边缘化的风险。随着公司成长和发展成产品团队，他们往往更喜欢自给自足。即使他们可以从与数据科学家的合作中受益，产品团队也不想依赖他们不能控制的资源。相反，他们依靠自己，用其他的名号雇用自己的数据科学家，如“研究工程师” 来完成工作。如果产品团队拒绝与独立数据科学团队合作，那么该团队就会被边缘化和无效率。再次，这是当你开始失去好的人才。 LinkedIn的原始数据科学团队是一个独立的团队，团队的自主权使其能够在LinkedIn的产品中做出重要贡献，范围包括提高“可能认识的人”的用户体验到检测欺诈性帐户。但随着LinkedIn的增长，独立团队与产品团队有效合作变得越来越困难，特别是当这些团队聘请具有类似技能的自己的工程师时。最终LinkedIn决定不再需要它的独立团队。这是一个很可能的结果。

嵌入式模型

在嵌入式模型中，数据科学团队带来了有才华的人才，并把它们带到公司的其他部门。依然有一个数据科学的负责人，但他或她主要是一个招聘经理和教练。

嵌入式模型是独立模型的完全相反：它放弃了自主性以确保效用。在最好的情况下，数据科学家加入最需要他们的服务的产品团队，并在整个组织中处理各种各样的问题。

嵌入式模型的缺点是，并不是所有的数据科学家都乐意放弃自主性(事实上，许多人根本不擅长)。数据科学家的工作描述强调创造力和主动性，嵌入式角色通常要求他们遵循嵌入的团队的领导。

“这里有一个风险，作为嵌入式团队成员你的数据科学家会觉得像二级公民，他们的产品负责人不觉得对他们的成长和幸福负责，而他们的经理不会感到归属感。”

我们已经看到一些公司嵌入数据科学经理，但是这种方法只有当你有一个相当大的数据科学团队时才有效。

在LinkedIn，Daniel体验了嵌入式模型的优缺点。事实上，决策科学团队已经长期以其嵌入式模型发展。决策科学家确保产品团队通过数据做出决策，尤其是启动决策。同时，拥有一个集中式组织有利于知识共享和职业发展。但是，如前所述，独立的数据产品团队并不像该组织那样成功。最终，LinkedIn决定将产品数据科学融入工程领域，Daniel本人也进入工程领域，领导一个负责搜索质量的整合团队，这一领域需要工程师和数据科学家之间的紧密协作。

集成团队

在集成模型中，没有单独的数据科学团队。相反，产品团队雇佣和管理自己的数据科学家。

这优化了组织调整。通过使数据科学家成为他们的产品团队的一流成员，它解决了独立和嵌入式模型的缺点。在数据科学家，软件工程师，设计师和产品经理致力于共享产品目标的范围内，集成模型为这些目标赋予了集体团队的所有权。如当你狭隘的关注职能团队彼此间的目标分歧，并最终陷入了经常被忽视或拖延的境地，集体团队的所有权帮助你如何克服由此产生的困境。

集成模型的缺点是它弱化了数据科学的身份。数据科学家个体会认同他们相关的产品团队，而不是一个集中的数据科学团队。你还牺牲了嵌入式模型的灵活性，因为很难根据他们的技能和兴趣进行人员调整。最后，综合模型可以为科学家的职业发展带来挑战，因为一个综合团队的经理可能不是最有价值或奖励他们的成就的。

在Instacart，数据科学完全集成到产品团队中。这些团队拥有自己的产品领域 – 这可以是实时订单实现引擎，购物者在挑选杂货或搜索和推荐服务时使用的应用程序(这些团队中有15个)。

每个人都是工程师，数据科学家，设计师和产品经理的结合，工程师和数据科学家都报告成为技术主管 – 他们自己可能是一个工程师或数据科学家。这种结构确保工程师和数据科学家密切合作，他们有权力做任何所需的，以实现他们的团队的目标。作为数据科学副总裁，Jeremy是数据科学家及其团队领导的导师和教练。他将团队整合成一个横跨产品团队的社区。他领导组织范围的数据科学计划。

每个模型都有自己的优点和缺点，你必须找出哪一个是最适合你的公司 – 并且思考怎样发展。随时随地满足您的需求变化。有时，最好的方法不是一个单一的模型，而是一个混合。正如Andy Grove在“高产出管理中提到的：

“良好的管理是集权和放权的调和妥协，一种以获得最佳的效用和付出行为的结合”

如何构建数据科学蓬勃发展的企业文化?

随着你的组织和野心继续增长，你不可避免地想要雇佣更多的数据科学家。早日建立公司文化，使其成为实践数据科学的绝佳场所，当他们举足轻重的时候，你就会获得红利。

许多组织声称是数据驱动的。他们收集大量数据，在数据工程中投资，并经常参考丰富的数据指标。但他们止步不前。

“行胜于言，数据科学只会在根据数据做出决策的组织中感到重视。”

公司必须建立起信任与决心使之让数据科学家根据数据做出决策，即使它们违背流行的智慧或导致组织的权力的重大变化。这些是数据科学可以产生最大影响的机会。

数据科学家和其他人一样，希望他们的工作被认可并产生影响。实现这一点创造了一个积极的反馈循环，数据科学家仍然积极主动地解决大问题并确保他们的解决方案是可以估量并具有执行性的。

认识到数据科学家的贡献可能是困难的 – 特别是当他们在集成团队。您的数据科学领导者需要在自我实现和影响力上保持卓越，公司的高级管理人员应该设法定期去了解和欣赏数据科学家的影响。不只是每一次。

“在许多方面，数据科学需要一个应用场景，一个数据科学家凭空是无法产生价值的。”

除非他们与产品经理，工程师和设计师密切合作，否则他们不会创造惊人的产品，除非领导者和运营商重视他们的见解，他们的建议可能永远不会引发变革。当Jeremy最初加入作为Sailthru的数据领导者时，其工程组织对数据科学有一个中性的看法。为了增加每个人的参与，他花了30%的时间在他的前2个月为工程团队创建和教授统计学习。通过使用Sailthru数据完成所有的例子，并让工程师参与构建数据驱动产品的过程，该课程快速加速了组织对数据科学的认识的过程。时间投资是昂贵的 – 尤其是在那些成长的几个月。但是让工程师对成为数据科学合作者的潜力感到兴奋是值得投资的。尽管它的名字，这个学科可以是一个艺术作为一个科学。不是一切都可以衡量，我们受限于我们的算法，我们的计算资源和我们的独创性。

“随着时间的推移，如果你建立一个具有极其不同专业背景，技能和世界观的多元化团队，数据科学团队的影响将会更大。”

这将确保他们尽可能全面地考虑他们的领域，随着时间的推移，并将鼓励创造力和创新

最后，应该尽早招聘反映公司理念的数据科学家。为了提高效率，数据科学家必须被他们的团队，他们的产品的用户和他们影响的决策者信任。当你建立你的团队，雇用并奖励诚实的人：那些共享你的组织的价值观。他们的影响是巨大的，而且，他们做出的许多决定将塑造你公司的未来。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。