摘要:如果你在寻找数据科学内成长快、需求高、有着极高价值并且尚无很多专家从业者的领域,你可以关注时间序列预测,尤其是应用于供应链管理的需求预测。
成为数据科学家很有意思的一点是我们会被要求预测未来。大多数情况这意味着试图预测哪些人会买,哪些人会流失,他们接下来会买什么,会花多少钱,所有这些问题是评分模型最基本的部分。不过如果是预测他们下个月的购买总量(收入预期)或者是下个星期、下个月或者下一年用来满足这些订单的实际原料的价格,那么你已经进入了时间序列预测的世界了。
忘掉那些常见的警告吧,即“过去的表现不能保证日后的成功”。事实上,如果你从事时间序列的工作,你就会知道过去的数据确实是一个预测未来的好指标。这个方法可能在一些像股票市场一样复杂的环境中行不通(尽管有很多股票分析员也凭此赚的盆满钵满),但是完全可以用于预测下个星期Y商店能卖出多少X产品,接下来的几个月里Z商品的价格,或者甚至是一个财富1000强公司未来几个月中每周的销售量。
时间序列预测是公司财务计划的核心。我们需要长期的收入和盈利能力预测来指导工厂、设备及企业并购的投资。我们需要中期的预测(一般1到3年)来准备应对市场和竞争者的策略应对。但是这些中长期预测可以用相当平滑的曲线呈现出来,不用担心太多的失真。真正宝贵并且困难的是短期预测,比如接下来3到6个月的每周销售额。
短期预测是典型的无规律可循,也是供应链管理的核心和灵魂。如果出货数量预测过高则存货占用成本会增加,毛利润会因为你需要降价清仓而降低;如果预测过低则会缺货,导致彻底地错失销售额。所以预测正确是非常重要的。它会导致众所周知的“长鞭效应”,即上游微小的预测误差会造成下游严重的错误。
Image source: opsrules.com
假设你不太了解时间序列预测并且最近52周的实际需求订单看起来就像下图中的数据一样。
首先我们会忍不住去掉所有的峰值并将它们作为异常值弃掉。之后可能会试图进行校正使其看起来像年度周期规律。再然后就会应用回归分析或者神经网络模型使结果成为图中右边蓝色部分的预测线。你的即刻判断应该是:
1.95%的置信区间(阴影部分)过大因此预测结果没有意义
2.没有考虑需求中真实的周期性峰值和明显的季节性,你会导致最后的生产计划失败。在未来的几周内,生产计划将会不是过高就是过低,无法满足实际的需求(根据历史数据得出)。
然而现在这种甚至比这更糟糕的预测方式正是现如今大多数公司所使用的。在《工业周刊》一份2014的调查中显示,77%的公司仍然在使用Excel进行预测。只有44%使用了移动平均值法。仅有21%的公司利用了更复杂的技术,例如上述的回归分析。而使用了更先进的时间序列预测技术的公司只有个位数而且占比很低(总数超过100%是因为有的公司使用了多重技术)。顺便一提,今年是Excel被引入的第30周年。工业在需求预测方面并没有多少进步。
先进的时间序列预测法
在供应链管理上所使用的先进的时间序列预测法有很多种,并且有别于非该领域数据科学家的方法。下面是一些比较常见的方法举例(并不是详细清单):
- 指数平滑法
- ARIMA和ARIMAX(自回归求和移动平均模型)
- 动态回归模型
- 向量自回归模型
- 神经网络模型
- 分层或分组时间序列
- 离散事件模拟
- 多层因果分析
这些都是非常专业的,非直观的,且需要特别培训和经验才能获得准确的结果。低覆盖率和对知识及经验的高要求使其成为数据科学的绝佳成长领域。
使时间序列预测有别于数据科学其他更宽泛的领域的一点额外不同是,绝大部分技术是在学术环境中发展起来的(正如广泛数据科学中预言性的和描述性的工具),而时间序列预测中的有些技术则是由例如SAS这样的个人公司所开发的,有其自身的所有权和专利。它们当然也更精确。
指数平滑法和ARIMA/ARIMAX
我们的目的并不是要深入研究任何一种技术,而只是简单描述这两种方法的益处。这两种方法都适用于无规律环形模型。比如下面这个用自回归求和移动平均模型所进行的预测。
Image source: Rob Hyndman
有一些使用ARIMA模型的例子准确率在98%左右,即使是这种复杂程度的保留样本。
ARIMA的有趣之处在于它结合了两种技术,单变量自回归分析和移动平均。ARIMAX 几乎和ARIMA一样,除了额外的一点,即融合了转移函数的时间序列,三种技术合一。这种方法有时会更准确,但并不经常。
最先进准确的时间序列预测法经常是由多种技术构造而成的,和团队或者组合建模的概念并无不同。
为什么需求预测如此困难
在现实世界中,尤其是有些时段有着非常多的可能性,比如一个星期。有些时候只是杂乱的白噪音,但是我们必须至少从逻辑上解释以下内容:
- 趋势 (随着时间所变化的增速和减速)
- 季节性
- 周期性变动
虽然这可能是变量最主要的三大因素,AMR研究则称这三点只能说明模型准确度的50%。在生产预测层面,更重要的影响是离散事件。
- 天气Weather
- 日历(节日、季节性活动)Calendar (holidays, seasonal activities)
- 因果事件
- 促销和市场推广(包括竞争者的促销)
- 新产品发布New product introductions
- 价格变动Price changes
- 宏观经济影响(例如:失业率)
- 库存增加
- 客户需求变化
- 客户变化
高德纳研究表明,这些外在因素是最经常被企业管理人员所引用的来解释需求变动性的来源。
整体综合预测
可以看一下下面这个来自某厂商的历史数据,即受到季节性、天气、周期性需求、促销及潜在趋势影响的每周需求曲线。
Image source: SAS
最先进的整体需求预测技术是多种技术的结合,有时会多达30种,用于建立最优模型并将他们组合成一个平均累计需量预测
有一些很有效的预测工具组合,被称为大规模的自动化预测和模型生成工具,可以利用事件和原因变量对一些非常不规律的时间序列数据做出很精确的预测。请看下面符合历史数据的虚线和预测的橘黄色实线。
Image source: SAS
价值定位
对于产业而言是非常有价值的。
AMR研究报告称使用对一些有因果关系的事件通过整体预测进行说明所得到的改变如下:
- 预测精确度提高54%
- 存货周转率提高33%
- 存货量降低15%Results in 15%
- 订单完成率提升17%Yields a 17%
- 回款时间降低35%
在今年年初,《工业周刊》的“供应链透视”报道了此次调查的结果:几乎90%的厂商表示如果有一个更好的需求预测那么他们的收入将提高10%。
这是数据科学中一个高度专业化的领域。如果你在寻求一个高价值,高增长的方向,那么研究时间序列预测将会是一个明智的选择。
2015年12月21日
Bill Vorhies Editorial Director, DSC
原文链接:http://www.datasciencecentral.com/profiles/blogs/predicting-the-future
数据分析网翻译小组翻译,翻译成员——王爽,数据分析爱好者,英语笔译初学者,爱丁堡大学不相关专业归国小硕一枚,现就任于某跨国体育咨询公司,生于东北,活在北京,希望有朝一日能够成为数据分析界的一颗新星。
本文由 翻译小组 翻译发布,英文链接:,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/39256.html 。