周涛：企业实现全面“数据化”的8个步骤

什么样的企业可以称得上是大数据企业呢？恐怕没有人能够给出一个完美的答案。但是，直观地，我们可能觉得Google 更像是一个大数据的企业，阿里巴巴也像是一个大数据的企业，而中国银行似乎不太像一个大数据的企业，尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外，之所以Google 和阿里巴巴更像大数据的企业，是因为他们有深入的数据分析工具，利用数据分析的结果直接指导决策，而且经常推出基于数据分析的创新型应用，这还不包括类似于AlphaGo 这样的奇葩。

这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客，二是为一本名为Code Halos 的书写的序言。这个版本可以看作是上两个版本的补充和扩充，同时也是本书一些重点内容的重述（为了保证本文的独立性，可以不依赖本书直接阅读，少量书中给出过的文献和注释在本文中重复出现了）。然而遗憾的是，并没有一条放之四海皆准的通往大数据企业的康庄大道，更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议，藏在这些建议背后的大数据理念，或许更加重要。

尽管我是用Step1、Step2 这样的说法来列举成为大数据企业的措施，但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说，最好的办法当然是先有了数据标准再整理采集数据，这样可以不走任何弯路，但实际上完全没有数据，企业不会有动力做标准建设，做出来的标准也可能是纸上谈兵，完全不实用。又比如，数据管理平台的建设能够帮助更好地进行全面数据化，但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说，写在更前面位置的，是更基础的，但是没有绝对的依赖关系。

Step 1. 全面数据化

“数据化”浪潮是整个大数据时代的起点，它强调数据就是资产，记录一切可以记录的数据，并相信这些数据一定会在某一天产生巨大的价值。显然，数据化是一个企业能够通过深入数据分析，实现自身优化的基础。

我去长虹集团调研的时候，他们告诉我，长虹电器在自己的生产线上，通过大量传感器，记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度，等等，通过这些量化指标与产品质量的关联分析，得到影响产品优品率和良品率的关键因素，再进一步通过控制环境因素，明显提高了产品的优品率。企业在日常的经营管理过程中，通过办公自动化系统（OA系统），很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富！我们通过对这些数据的分析，能够更精确地预测员工的离职率和升职率，更精确地预测员工和部门的绩效水平，帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件，等等。但是这些提升，都是建立在企业拥有相应数据的基础上。

总的来说，全面数据化要求企业采集并存储企业生产经营中的一切数据，形成企业数据资产的概念。

Step 2. 整理数据资源，建立数据标准，形成管理规范

很多企业已经有了一些数据储备，或者通过第一步，开始快速积累了一些数据。但是企业管理层，尤其是跨业态拥有多家子公司的集团运营的企业，一般而言，对于自己到底有哪些数据资源是没有清晰认识的，更拿不出一张较完备的数据目录。

企业要做的第一步，就是通过自顶向下的方式，成立数据委员会，在有必要的时候借助外部合作方的帮助，进行全面的数据调研，了解数据资源的整体情况并建立数据资源情况更新的流程和规范。

数据资源最基本的呈现方式是一个数据目录，我认为，企业管理团队至少要掌握整个企业数据的3级目录，而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录，因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后，企业要根据自己业务发展的需求，建立数据标准，使现有数据和未来所有的新增数据都能够在同一个标准下统一管理，避免“信息系统建设越多，未来数据整合越难”的困境。业务中涉及大量数据的企业，尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业，要形成数据全流程管理的规范，因为绝大部分数据隐私和数据安全的事件，都不是从外部由黑客或者敌方特定人员通过技术手段获得的，而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理，随时了解敏感数据存储在哪些服务器和终端设备上，对于敏感数据的任何处理，都能够留下数据日志并打上唯一的数据水印，使任何可能的数据泄露之后，都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运用何种权限下载的。对于一些操作过程中出现的风险点，良好的管理规范也能够实时发现，防患于未然。

Step 3. 建设数据管理平台

有的读者一听到数据管理平台，就认为是要花一大笔钱建设数据中心，把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能，但是它的作用远不止此。

首先，数据管理平台要为企业量身定做一套数据组织和管理的解决方案，特别是企业各部门之间数据的共融共通，以及企业数据怎么样进行索引和关联。很多大企业，各部门之间数据的格式、形态和ID系统都不一致，部门之间无法交换数据，甚至大部分的数据表连主键和外键都没有，数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。

其次，数据管理平台是由业务所引导的，先进的流数据智能处理系统，要为业务提供直接的支撑。很多时候，数据管理平台怎么搭建，需要深度了解企业最重要的核心业务，通过有重大价值的示范性应用来牵引数据管理平台的建设。例如针对零售类的企业，就应该形成以消费者为中心的索引和画像系统，主要支持精准广告、智能客服等核心业务，其次才是以商品为中心的索引系统，主要支持物流和仓储优化等业务。

最后，数据管理平台的建设要量体裁衣，强调鲁棒性和可扩展性，没有必要一开始就投入大量经费。因为硬件成本的下降也很快，不用想太多半年甚至一年以后的事情，只要架构设计合理，到需要的时候扩充硬件是容易的。

Step 4. 建立海量数据的深入分析能力

要想建立针对多元异构、跨域关联的海量数据，通过深度分析挖掘获取价值的能力，主要要培养两个方面的能力。

第一，非结构化数据的分析处理能力。包括文本、音频、图像、视频、网络和轨迹等数据。受过传统商务智能和统计学训练的人，对于处理结构化数据非常在行，但是处理非结构化数据往往比较头痛——比如分布好做抽样，网络怎么进行抽样？所以，对于常见的，特别是和企业自身业务有密切关系的非结构化数据，一定要有一支队伍能够挖掘其间价值，甚至将其转化为结构化的数据。

第二，大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题，其本质都是分类或者预测问题，包括个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告和网点选择，等等。解决这些问题最有力的武器就是机器学习！特别是在大数据环境下，很多高阶的核函数慢得不行，大量的学习都必须采用线性学习器；而且数据非常多，很多时候都是在强噪音环境下寻找弱信号，单一分类器往往效果一般，必须要做集成学习。举个例子，在Netflix举办的百万美元电影个性化推荐大赛中，我们做过一些很优美的单模型，但是比起在比赛中最后获胜的集成学习模型，至少从精度上来说是弱爆了！有的读者要问了，高性能存储计算难道不重要吗？不得有一些懂Hadoop，懂Spark的技术高手吗？要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢？这个也重要，但是企业如果实力足够，可以采用成熟的解决方案，国际上顶尖的大数据服务商，例如IBM、HP和Intel都有不错的方案。但是我说的上述两点，是给企业培养人才和能力，而且至今也没有特别好的成熟的解决方案，所以更重要。

最后，企业怎么建立这样的能力呢？首要办法是能够招聘到一流的大数据人才——多花点钱和股票。第二选择是以显示度项目为牵引，通过外部合作，培养自己的数据分析团队，既解决问题，又学习能力。企业做这类的合作，不要老想着一次性把所有东西都外包出去，要探索新方式，看看能不能成立联合小组共同进行研发，多投入一些人去学习。有一些供应商，特别是在某些方面有专长，但是还不属于国际一流的供应商，在发展过程中是能够接受企业这种要求的。

Step 5. 建设外部数据的战略储备

企业走到这一步，就有点现代大数据企业的理念了，因为它不再仅仅局限于自己业务的数据了，开始看外面的世界了——很多大数据的重大创新，都是来源于把数据放在产生数据的业务体系之外去应用。举个例子，一个服装企业要解决设计生产的规划问题，仅仅看自己的销售记录还不够，要不要看看淘包、天猫和京东上服装的整体销售，了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢？这就需要外部数据了！

事实上，外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大，而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据，这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以，企业要有意识地开始建立自己的外部数据战略储备，不要“数”到用时方恨少。一方面，企业可以自建具备采集、清洗、存储和索引等功能的自动化系统，自动积累外部数据；另一方面，企业可以通过和数据供应商合作，得到一些亟需的数据。

Step 6. 建立数据的外部创新能力

企业很容易局限在自己的业务中不能自拔。所以，让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易，因为企业主和员工们每天都在想怎么解决这些问题，反过来，让他们去思考自己业务的数据能不能在其他地方产生重大价值，帮到其他企业，他们就没有那么敏感了。其实，这些创新性的想法往往能够带来新的巨大价值。比如，Google利用自身搜索业务产生的数据，进行电价和传染病流行情况的预测，取得了巨大成功。

事实上，企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台，等等，获得的第一手数据，很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。把握住这些机会，就能够放大企业当前业务的价值，带来持久可观的收益。

Step 7. 推动自身数据的开放与共享

伟大的企业懂得如何把最聪明的人集合起来，为自己服务。

企业有了大量数据和一定的分析能力后，不能故步自封，而要充分借助社会的力量，尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据，并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是一家电影在线租赁公司，而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据，相当一部分都能够以各种方式开放出来——这种开放会带来更大价值！国际化的如 Kaggle（英文平台，www.kaggle.com），国内如 DataCastle（中文平台，ww.pkbigdata.com），都是很有影响力的大数据创新竞赛平台。

举个例子，电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛，总奖金才50 000元，却吸引了915支队伍2 000余名参赛者参加比赛，其中200多只队伍来自于“985”和“211”知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。最近现金巴士推出的“微额借贷用户人品预测大赛”更是吸引了1531支参赛队伍。还有一种最近新出的比赛方式，就是企业给出数据集的描述和样本数据，参赛选手设计创新型商业应用，提交产品说明或者商业计划书。

企业通过这些数据开放计划，可以学习最先进的算法和最具创新性的数据应用思路，实现自身数据的价值最大化。

Step 8. 数据产业的战略投资布局

企业有了一定的规模，光靠自己的能力还不够或者还太慢，就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。这类战略型的投资，有三个可能的出发点：

(1) 产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手，进行全产业链布局，集中力量。

(2) 技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象，提供具有普适性的解决方案。

(3) 数据集成。以数据流动共享，发挥外部价值为理念，投资一批能够紧密合作、数据互补和可控性强的企业。

对于原来没有从事过数据密集型和信息技术密集型行业的企业来说，第二类投资方向的风险特别大，建议主要从（1）（3）两类考虑。这种投资有别于财物投资，主要是考量被投资企业与投资方的整合能力，以及所能提供俄数据的稀缺性、独立性、多源性、流动性和互补性。

最后，补上这样一个结束语的目的，是希望读者能够从中领悟到企业的大数据之道！如果说有那么几家企业，受到这本书的启发，在商业模式、产品和业务方面产生了可观的价值，这就是作者最大的成功了。