几乎每个行业的组织现在都充斥着比他们知道如何处理更多的数据。但是,他们如何获取所有这些信息并使用它来获得有助于改进运营和规划前进道路的新见解?从数据到洞察力再到决策制定的确切过程对于每个组织来说都略有不同。但我对跨行业最佳实践的观察揭示了该流程的通用架构。
寻求利用数据科学进行战略决策的组织,应遵循以下五个步骤:
1. 理解数据结构
考虑零售业。任何在 Shopify 等平台上开设电子商务商店的人几乎都会立即开始收集数据——有关来自不同渠道、供应商、库存、客户评论和其他来源的交易信息。现在,假设零售商希望更好地了解其客户,包括他们喜欢的东西、不喜欢的东西以及影响他们购买决策的因素。回答这类(看似简单)的问题很快就会变得复杂,因为客户有不同的偏好,以及与品牌互动的不同方式。有些人可能只购买一种产品,而其他人则是忠实的回头客。但是通过在微观和宏观层面进行仔细分析,组织可以开始全面了解其客户群,
2. 使用结构创建预测模型
这是步骤 1 中的零售商获取其所有数据并开始提出具体问题的过程的一部分,例如:“27 号衬衫在来年春天的销售情况如何?” 在数据科学家将现有数据转化为更加结构化的形式后,他们可以应用预测方法来回答这些问题。对于利益相关者来说,将细微差别引入流程的这一方面非常重要。例如,红色衬衫可能卖得很好,但也许过去一周有明显的下降趋势。通过分析历史数据,组织可能会发现这种低迷仅仅是可预测的季节性小问题,或由于不可预测的外部事件(例如全球大流行的突然出现)。通常,人们会问这样一个问题:“多少数据才足够?” 但实际上,这是一个错误的问题。反而,
3. 了解数据中的动态
在大众的想象中,数据科学通常是一个非常静态的过程:您获取数据,通过神经网络运行它,然后做出预测。但实际上,零售和金融领域(以及数据科学特别有价值的其他领域)中的数据在不断变化。此外,数据有时会因收集数据的组织所做的选择而产生偏差。精明的数据科学团队必须考虑所有这些变量。再次谈到零售:从 2020 年 2 月(在 COVID 爆发之前)到 2021 年 1 月(大流行的高峰期),进入组织的数据不可避免地发生了很大变化,此后随着危机的消长和消退又发生了几次变化. 因此,在发展对数据的理解以及构建预测模型的同时,必须考虑到这种动态。
4. 采用现代机器学习技术
(ZinetroN/Shutterstock)
处理来自电子表格的数值数据以做出基于数据的预测和决策是一回事。但现在想象一下,这些电子表格单元格中的数字变成了非结构化对象,例如图像和文本。为了利用这种非结构化数据,组织需要利用现代机器学习 (ML) 方法。这极大地增加了组织可以用来进行预测的数据的数量和类型。当然,易于量化的指标(例如历史销售数据)非常有用。但是来自在线客户评论甚至社交媒体互动的非结构化数据可以更全面地了解市场上正在发生的事情以及原因。
5. 开发有效的场景分析(又名推荐)系统
最后,数据科学团队需要将所有内容整合在一起,以实时、大规模地做出连续决策。这种决策不可避免地涉及决策者或需要帮助执行“情景分析”并需要使用历史数据“建议”的人。事实上,推荐系统就是对这个问题的回答。
通常,推荐系统一直关注电子商务中的应用,例如“如果你喜欢这个,你可能会喜欢那个”。然而,它们拥有电子商务以外的广泛应用,包括各种娱乐和寻路应用、金融、政策制定、匹配市场(叫车、在线约会、演出市场等),以及更普遍的任何需要搜索之外的帮助的应用。为了说明创建有效推荐系统的挑战和机遇,请考虑一个简单的例子:亚马逊维护着数百万种产品的库存,拥有数亿客户。在推荐引擎的两边,有大量的变量需要处理。但是,通过正确处理这一部分,该公司能够增加收入并更好地满足其客户。
从外面看,数据科学似乎是一个非常神秘的实践。但是,太空旅行、建造摩天大楼或进行心脏直视手术的实践也是如此。与这些其他实践一样,数据科学受规则的约束,这些规则可以帮助指导组织和个人取得成功。
作者简介:Devavrat Shah,麻省理工学院职业教育应用数据科学项目首席讲师,麻省理工学院电气工程与计算机科学系教授。他是信息与决策系统实验室 (LIDS) 和运筹学中心 (ORC) 的成员,以及 IDSS 统计与数据科学中心 (SDSC) 的主任。研究方向为大型复杂网络理论,包括网络算法、随机网络、网络信息论和大规模统计推理。
本文由 Afenxi朋友们 翻译发布,英文链接:https://www.datanami.com/2021/12/16/5-steps-to-data-based-decisions/,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/112615.html 。