系统性分析大数据产业现状和预测未来发展方向

【资源、技术、理念三方向看大数据】

大数据是新资源、新技术和新理念的混合体。

从资源视角来看，大数据是新资源，体现了一种全新的资源观。1990 年以来，在摩尔定律的推动下，计算存储和传输数据的能力在以指数速度增长，每GB 存储器的价格每年下降 40%。2000 年以来，以 Hadoop 为代表的分布式存储和计算技术迅猛发展，极大的提升了互联网企业数据管理能力，互联网企业对“数据废气”（Data Exhaust）的挖掘利用大获成功，引发全社会开始重新审视“数据”的价值，开始把数据当作一种独特的战略资源对待。大数据的所谓 3V 特征（体量大、结构多样、产生处理速度快）主要是从这个角度描述的。

从技术视角看，大数据代表了新一代数据管理与分析技术。传统的数据管理与分析技术以结构化数据为管理对象、在小数据集上进行分析、以集中式架构为主，成本高昂。与“贵族化”的数据分析技术相比，源于互联网的，面向多源异构数据、在超大规模数据集（PB量级）上进行分析、以分布式架构为主的新一代数据管理技术，与开源软件潮流叠加，在大幅提高处理效率的同时（数据分析从T+1 到T+0 甚至实时），成百倍的降低了数据应用成本。

从理念的视角看，大数据打开了一种全新的思维角度。大数据的应用，赋予了“实事求是”新的内涵，其一是“数据驱动”，即经营管理决策可以自下而上地由数据来驱动，甚至像量化股票交易、实时竞价广告等场景中那样，可以由机器根据数据直接决策；其二是“数据闭环”，观察互联网行业大数据案例，它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”，从而能够不断地自我升级，螺旋上升。目前很多“大数据应用”，要么数据量不够大，要么并非必须使用新一代技术，但体现了数据驱动和数据闭环的思维，改进了生产管理效率，这是大数据思维理念应用的体现。

【如何界定大数据产业】

大数据本身既能形成新兴产业，也能推动其他产业发展。当前，国内外缺乏对大数据产业的公认界定。我们认为，大数据产业可以从狭义和广义两个层次界定。

从狭义看，当前全球围绕大数据采集、存储、管理和挖掘，正在逐渐形成了一个“小生态”，即大数据核心产业。大数据核心产业为全社会大数据应用提供数据资源、产品工具和应用服务，支撑各个领域的大数据应用，是大数据在各个领域应用的基石。应该注意到，狭义大数据产业仍然围绕信息的采集加工构建，属于信息产业的一部分。

大数据核心产业构成

数据资源部分负责原始数据的供给和交换，根据数据来源的不同，可以细分为数据资源提供者和数据交易平台两种角色。数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应，根据数据加工和价值提升的生产流程，数据基础能力部分主要包括数据存储、数据处理和数据库（数据管理）等多个角色。

数据分析/可视化部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等，既包括传统意义上的 BI、可视化和通用数据分析工具，也包括面向非结构化数据提供的语音、图像等媒体识别服务。

数据应用部分根据数据分析和加工的结果，面向电商、金融、交通、气象、安全等细分行业提供精准营销、信用评估、出行引导、信息防护等企业或公众服务。

根据 IDC、Wikibon 等咨询机构预测，2016 年，全球的大数据核心产业规模约为 300 亿美元。

全球大数据产业规模（2011-2026）

目前大数据产业的统计口径尚未建立。对于我国大数据产业的规模，各个研究机构均采取间接方法估算。中国信息通信研究院结合对大数据相关企业的调研测算，2015 年我国大数据核心产业的市场规模达到 115.9 亿元，增速达 38%，预计 2016 年将达到 168 亿元，2017-2018 年还将维持 40%左右的高速增长。

中国大数据产业规模估计

从广义看，大数据具有通用技术的属性，能够提升运作效率，提高决策水平，从而形成由数据驱动经济发的“大生态”，即广义大数据产业。广义大数据产业包含了大数据在各个领域的应用，已经超出了信息产业的范畴。

据华沙经济研究所测算，欧盟 27 国因大数据的引进，至 2020 年将获得 1.9%的额外 GDP 增长。美国麦肯锡预计，到 2020 年美国大数据应用带来的增加值将占 2020 年 GDP 的 2%-4%。中国信息通信研究院预计，到2020年大数据将带动中国GDP 2.8-4.2%。

【大数据产业发展的要面临的挑战】

我国大数据产业发展已具备一定基础，但要实现从“数据大国”向“数据强国”转变，还面临诸多挑战。

一是对数据资源及其价值的认识不足。

全社会尚未形成对大数据客观、科学的认识，对数据资源及其在人类生产、生活和社会管理方面的价值利用认识不足，存在盲目追逐硬件设施投资、轻视数据资源积累和价值挖掘利用等现象。

二是技术创新与支撑能力不够。

大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑，无论是新型计算平台、分布式计算架构，还是大数据处理、分析和呈现方面与国外均存在较大差距，对开源技术和相关生态系统的影响力仍然较弱，总体上难以满足各行各业大数据应用需求。

三是数据资源建设和应用水平不高。

用户普遍不重视数据资源的建设，即使有数据意识的机构也大多只重视数据的简单存储，很少针对后续应用需求进行加工整理。数据资源普遍存在质量差，标准规范缺乏，管理能力弱等现象。跨部门、跨行业的数据共享仍不顺畅，有价值的公共信息资源和商业数据开放程度低。数据价值难以被有效挖掘利用，大数据应用整体上处于起步阶段，潜力远未释放。

四是信息安全和数据管理体系尚未建立。

数据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏，技术安全防范和管理能力不够，尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系。

五是人才队伍建设亟需加强。

综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏，远不能满足发展需要，尤其是缺乏既熟悉行业业务需求，又掌握大数据技术与管理的综合型人才。

【三大方向预测大数据技术发展未来趋势】

（一）社交网络和物联网技术拓展了数据采集技术渠道

经过行业信息化建设，医疗、交通、金融等领域已经积累了许多内部数据，构成大数据资源的“存量”；而移动互联网和物联网的发展，大大丰富了大数据的采集渠道，来自外部社交网络、可穿戴设备、车联网、物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。当前，移动互联网的深度普及，为大数据应用提供了丰富的数据源。

根据中国互联网络信息中心（CNNIC）第 38 次《中国互联网络发展状况统计报告》，截至 2016 年 6 月，我国网民规模达 7.1 亿，互中国信息通信研究院联网普及率达到 51.7%，超过全球平均水平 3.1 个百分点。其中，我国手机网民规模达 6.65 亿。网民中使用手机上网的人群占比提升至92.5%。线下企业通过与互联网企业的合作，或者利用开放的应用编程接口（API，Application Programming Interface）或网络爬虫，可以采集到丰富的网络数据可以作为内容数据的有效补充。

另外，快速发展的物联网，也将成为越来越重要的大数据资源提供者。相对于现有互联网数据杂乱无章和价值密度低的特点，通过可穿戴、车联网等多种数据采集终端，定向采集的数据资源更具利用价值。例如，智能化的可穿戴设备经过几年的发展，智能手环、腕带、手表等可穿戴正在走向成熟，智能钥匙扣、自行车、筷子等设备层出穷，国外 Intel、Google、Facebook，国内百度、京东、小米等有所布局。

根据 IDC 公司预计，到 2016 年底，全球可穿戴设备的出货量将达到 1.019 亿台，较 2015 年增长 29.0%。到 2020 年之前，可穿戴设备市场的年复合增长率将为 20.3%，而 2020 年将达到 2.136 亿台。可穿戴设备可7×24 小时不间断地收集个人健康数据，在医疗保健领域有广阔的应用前景，一旦技术成熟，设备测量精度达到医用要求，电池续航能力也有显著增强，就很可能会进入大规模应用阶段，从而成为重要的大数据来源。再如，车联网已经进入快速成长期。

据 StrategyAnalytics 公司预计，2016 年前装车联网市场渗透率将达到 19%，在未来 5 年内迎来发展黄金时期，2020 年将达到49%。不过，值得注意的是，即便外部数据越来越丰富，但可获取性还不够高，一方面受目前技术水平所限，车联网、可穿戴设备等数据采集精度、数据清洗技术和数据质量还达不到实用要求；另一方面，由于体制机制原因，导致行业和区域上的条块分割，数据割据和孤岛普遍存在，跨企业跨行业数据资源的融合仍然面临诸多障碍。

根据中国信息通信研究院 2015 年对国内 800 多家企业的调研来看，有 50%以上的企业把内部业务平台数据、客户数据和管理平台数据作为大数据应用最主要的数据来源。企业内部数据仍是大数据主要来源，但对外部数据的需求日益强烈。当前，有 32%的企业通过外部购买所获得的数据；只有18%的企业使用政府开放数据。如何促进大数据资源建设，提高数据质量，推动跨界融合流通，是推动大数据应用进一步发展的关键问题之一。

总体来看，各行业都在致力于在用好存量资源的基础之上，积极拓展新兴数据收集的技术渠道，开发增量资源。社交媒体、物联网等大大丰富了数据采集的潜在渠道，理论上，数据获取将变得越来越容易。

（二）分布式存储和计算技术夯实了大数据处理的技术基础

大数据存储和计算技术是整个大数据系统的基础。

在存储方面，2000 年左右谷歌等提出的文件系统（GFS）、以及随后的 Hadoop 的分布式文件系统 HDFS（Hadoop Distributed File System）奠定了大数据存储技术的基础。

与传统系统相比，GFS/HDFS 将计算和存储节点在物理上结合在一起，从而避免在数据密集计算中易形成的 I/O吞吐量的制约，同时这类分布式存储系统的文件系统也采用了分布式架构，能达到较高的并发访问能力。

在计算方面，谷歌在 2004 年公开的 MapReduce 分布式并行计算技术，是新型分布式计算技术的代表。一个 MapReduce 系统由廉价的通用服务器构成，通过添加服务器节点可线性扩展系统的总处理能力（Scale Out），在成本和可扩展性上都有巨大的优势。

（三）深度神经网络等新兴技术开辟大数据分析技术的新时代

大数据数据分析技术，一般分为联机分析处理（OLAP，OnlineAnalytical Processing）和数据挖掘（Data Mining）两大类。

OLAP技术，一般基于用户的一系列假设，在多维数据集上进行交互式的数据集查询、关联等操作（一般使用 SQL 语句）来验证这些假设，代表了演绎推理的思想方法。

数据挖掘技术，一般是在海量数据中主动寻找模型，自动发展隐藏在数据中的模式（Pattern），代表了归纳的思想方法。

传统的数据挖掘算法主要有：

（1）聚类，又称群分析，是研究（样品或指标）分类问题的一种统计分析方法，针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。企业通过使用聚类分析算法可以进行客户分群，在不明确客户群行为特征的情况下对客户数据从不同维度进行分群，再对分群客户进行特征提取和分析，从而抓住客户特点推荐相应的产品和服务。

（2）分类，类似于聚类，但是目的不同，分类可以使用聚类预先生成的模型，也可以通过经验数据找出一组数据对象的共同点，将数据划分成不同的类，其目的是通过分类模型将数据项映射到某个给定的类别中，代表算法是 CART（分类与回归树）。企业可以将用户、产品、服务等各业务数据进行分类，构建分类模型，再对新的数据进行预测分析，使之归于已有类中。分类算法比较成熟，分类准确率也比较高，对于客户的精准定位、营销和服务有着非常好的预测能力，帮助企业进行决策。

（3）回归，反映了数据的属性值的特征，通过函数表达数据映射的关系来发现属性值之间的一览关系。它可以应用到对数据序列的预测和相关关系的研究中。企业可以利用回归模型对市场销售情况进行分析和预测，及时作出对应策略调整。在风险防范、反欺诈等方面也可以通过回归模型进行预警。

传统的数据方法，不管是传统的 OLAP 技术还是数据挖掘技术，都难以应付大数据的挑战。首先是执行效率低。传统数据挖掘技术都是基于集中式的底层软件架构开发，难以并行化，因而在处理 TB 级以上数据的效率低。其次是数据分析精度难以随着数据量提升而得到改进，特别是难以应对非结构化数据。

在人类全部数字化数据中，仅有非常小的一部分（约占总数据量的 1%）数值型数据得到了深入分析和挖掘（如回归、分类、聚类），大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析（如排序），占总量近 60%的语音、图片、视频等非结构化数据还难以进行有效的分析。

所以，大数据分析技术的发展需要在两个方面取得突破，一是对体量庞大的结构化和半结构化数据进行高效率的深度分析，挖掘隐性知识，如从自然语言构成的文本网页中理解和识别语义、情感、意图等；二是对非结构化数据进行分析，将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息，进而从中提取有用的知识。

目前来看，以深度神经网络等新兴技术为代表的大数据分析技术已经得到一定发展。

神经网络是一种先进的人工智能技术，具有自身自行处理、分布存储和高度容错等特性，非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据，十分适合解决大数据挖掘的问题。

典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机；第二类是用于联想记忆和优化算法的反馈式神经网络模型，以 Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以 ART 模型为代表。不过，虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。

随着互联网与传统行业融合程度日益加深，对于 web 数据的挖掘和分析成为了需求分析和市场预测的重要段。Web 数据挖掘是一项综合性的技术，可以从文档结构和使用集合中发现隐藏的输入到输出的映射过程。

目前研究和应用比较多的是 PageRank 算法。PageRank是Google算法的重要内容，于2001年9月被授予美国专利，以Google创始人之一拉里·佩奇（Larry Page）命名。PageRank 根据网站的外部链接和内部链接的数量和质量衡量网站的价值。这个概念的灵感，来自于学术研究中的这样一种现象，即一篇论文的被引述的频度越多，一般会判断这篇论文的权威性和质量越高。

需要指出的是，数据挖掘与分析的行业与企业特点强，除了一些最基本的数据分析工具外，目前还缺少针对性的、一般化的建模与分析工具。各个行业与企业需要根据自身业务构建特定数据模型。数据分析模型构建的能力强弱，成为不同企业在大数据竞争中取胜的关键。

本文来源：2016年大数据白皮书编辑作者：袁帅