巨杉数据库CTO王涛：从大数据地形图看大数据发展

【导读】硅谷著名投资机构Firstmark近期发布了2016年的大数据行业地形图，展现了如今大数据厂商的分布。巨杉CTO王涛从地形图出发对于大数据的发展也有着自己的见解，他认为，想做好企业大数据，其实并不容易。

巨杉数据库CTO王涛：从大数据地形图看大数据发展

在新兴事物收到追捧的科技创新行业中，“大数据”目前正在走向理性与成熟。随着2006年Hadoop的成立, 在2011年到2014年间人们对“大数据”这一概念的兴趣达到了狂热的地步，凡是必提“大数据”。而进入2015年，随着大数据真正的开始广泛落地应用在各个领域，大数据这个词似乎变得非常常见，也开始为大家所接受。同时，2015年以来“大数据世界”里的“热血青年”们转而痴迷于VR、AI这些“更新”的领域，大数据行业也开始趋于冷静，走向成熟。

硅谷著名投资机构Firstmark近期发布了2016年的大数据行业地形图(Bigdata Landscape 2016)。展现了如今大数据厂商的分布。而SequoiaDB也有幸作为进入地形图的唯一中国企业，我们就来跟大家看看这个大数据地形图：

巨杉数据库CTO王涛：从大数据地形图看大数据发展-图片1

企业大数据—做好并不容易

关于大数据，有趣的是，它带给我们的很有可能并不像最初炒作时说的那种体验。

在科技界受到广泛关注的产品和服务，往往是那些人们可以触摸、感觉或涉及得到的，如：手机应用、社交网络、可穿戴设备、虚拟现实等。然而，针对大数据，从根本上说，它是属于探索型的。当然，大数据影响着很多消费者或企业的用户体验。但大数据的核心还是企业技术，它背后涉及到的数据库、分析等等并没有几个人会看到。大数据同样是这样：企业是不可能在一夜之间将一项新技术真正运用起来的。

巨杉CTO王涛

现在我们正面临着一个更大也更棘手的机会：采用大数据技术的企业范围更为广泛了，这涵盖了从中型企业到大型的跨国企业，这些企业在大数据应用过程中走了许多弯路：绝大多数这类公司，现有的技术基础设施都“能够凑效”，因此就认为可以通过“自身升级”同时引进一些开源的新技术就可以实现。结果最后不仅搭建起来技术上有众多“水土不服”，同时更多是现有技术实力不足以支撑大数据新业务的需求。

另一个要去理解的关键点是：大数据的成功不是去实现一项技术(像Hadoop或者其他公司)，而是要求把技术、人员和流程组合成一条组装线。你要做到的是获得数据，存储数据，清理数据，查询数据，分析数据，可视化数据。这里面有些是由产品本身去完成的，有些则依靠我们人类自身。并且，这一切都需要被无缝整合。最后，要使得它能够运作起来，整个公司从高级管理层开始，需要致力于构建一个数据驱动的文化，因为大数据不是“一件”事情，而是“一整件”事情。

还有最重要的一点，那就是企业级大数据领域，很难完全靠开源产品打遍天下的。任何大型的开源项目背后一定会有原厂的商业厂商提供原生的技术支持甚至是企业级的产品。比如Spark背后是Databricks，Hadoop背后就是“三驾马车”Cloudera、Hortonworks和Pivotal。因此，企业不应该只看到“开源大数据技术”就认为“我可以拿过来用了”，这是对于大数据最大的误区之一。

所以我认为，只有最优秀的大数据产品加上原厂的专业的技术支持，才是真正推动大数据快速落地的根本。

大数据的基础架构—-创新仍在继续

自谷歌发表那篇关于MapReduce和BigTable的文章引领Doug Cutting和Mike Cafarella创建Hadoop到现在已经过去十年了，因此大数据的基础设施层已经获得足够多的时间去发展成熟并解决一些关键的问题了。然而，由于因为大量的开源活动的进行，大数据基础架构仍在继续蓬勃发展。

一方面Spark在这一年发展迅猛，作为利用内存进行处理的开源框架，在我们发表旧版本蓝图时就开始引起众多的议论。此后，Spark受到了从IBM到Cloudera等各种玩家的欢迎，并取得了相当大的认可度。Spark的意义在于它有效地解决了关于让Hadoop有所延缓的一些关键问题：它运行快了很多，更容易编写程序，良好的机器学习适用性。

另一边，在数据库领域里，NoSQL与NewSQL正在不断融合。NoSQL数据库们纷纷开始支持SQL，而PostgreSQL、MySQL甚至Oracle都开始支持JSON格式存储。因此，数据库领域目前“分布式”、“SQL支持”以及“多类型存储”这几点成为了数据库的最新的必备项。此外，新兴的参与者比市场以容纳的量似乎出现的更多，同时有很多令人兴奋的事情在发生:从图形数据库的成熟、专业数据库的兴起再到另外，数据仓库也同样在不断发展发展。

大数据分析—AI与大数据分析结合

在过去的几个月里，大数据分析的最主要趋势，是与AI人工智能的结合上。AI与大数据分析的结合，这有利于帮助大量数据的分析，从而得出预测的结论。AI 真正帮助人们实现了最初预想的“大数据的功能”，AI和机器学习在数据分析领域就代表了大数据下一步进化的方向。近期的AlphaGo的成功，就是AI与大数据有机结合的最好体现。

同时，对于大数据BI领域，AI的出现也大大提高了BI智能化的脚步。不断成熟的AI，可以帮助人们处理数据，计算公式，最终统计和分析出一些特定的适合的模型，这就做到了之前的数据科学家(Data scientists)在建模中的许多工作。

大数据应用—加速落地

既然一些核心基础架构的挑战已然突破，应用层的大数据也随之正在迅速建立起来。

值得一提的是大数据应用两大趋势：

首先，会有许多许多 “大数据原生”应用程序，他们由自己最新的大数据技术建成，并代表了一个有趣的，为客户提供利用大数据而无需自行部署底层大数据技术的方式。

其次，人工智能在应用程序层面上也体现出了强大的表现。在许多依赖于AI的大数据应用中，AI的自动化程度已经接近于100%，甚至于很多场景下大大超过了人工操作的效率和准确性。

大数据市场—-不断成熟

对于大数据的生态，我们可以从资本市场就可以很好的判断整个市场和生态的情况。第一波的大数据技术公司，基本都在2009~2013年成立，而至2015年以来，大多都经历了多轮的投融资，也在技术产品和业务方向上趋于稳定。整个2015年，大数据领域的VC投资额度为 66.4亿美金，占到了整个科技界投资的11%以上，这足以说明问题。另一方面，用户侧对于大数据的需求不断增加。根据IDC的调查数据，到2015年全球新兴大数据市场规模已经到达330亿美金的规模，在未来3年内市场规模更将突破500亿美元。

中国大数据机遇挑战并存

看完了硅谷评选的大数据地形图，作为一个中国的大数据厂商，也是唯一上榜的中国大数据厂商。我们既感到开心，也感觉到任重道远。

对于SequoiaDB进入这次Landscape，我认为主要原因也有以下几个：产品技术方面，我们作为一款标准化、商业化的新一代分布式数据库产品，我们的产品完全自主研发并且保持了高性能、稳定可靠;用户方面，我们的数据库产品在金融、电信和互联网等行业都得到大规模应用，客户包括民生、广发银行、电信移动等以及途牛、360安全路由等互联网用户，在企业用户中经受了考验才是对我们最大的认可;同时，品牌和技术生态构件上，我们与硅谷主流大数据厂商Cloudera，Databricks，Hortonworks等成为全面战略合作伙伴，也是国内仅有的一家Spark发行商认证的数据库厂商，在海内外构建了我们自己的大数据生态。此外，我们也获得了硅谷最具影响力的“红鲱鱼”和“快公司”的创新企业大奖，在创新品牌构建上也得到了硅谷的认可。

对于中国的大数据产业可以说是机遇和挑战并存。

对于机遇，中国的大数据目前处在飞速发展期，传统的大数据需求旺盛的行业如金融、电信等都在积极的往新一代的大数据技术演进，深度挖掘数据的价值;同时，更多的传统企业，如制造业、贸易、零售等行业，在“产业转型”的背景下，也在寻找转型的方向，其中“大数据+”就是重要的方向之一;此外，国家对于大数据的大力支持也为大数据的发展构筑了良好的土壤和政策环境。

机遇之外，我认为更多的也是挑战。

相比硅谷，国内在大数据技术领域特别是在基础架构领域，目前基础仍相对薄弱，这也造成了国内大数据更多会集中在应用层面，而真正像数据库等基础架构的厂商可谓屈指可数。同时，国内大数据的应用场景和环境、特性与海外也有许多不相同的地方，对于众多引进入国内的海外厂商产品，或者是基于海外的开源产品构建的平台，在实际应用中会存在“水土不服”的问题。所以只有国内原厂厂商真正从基础做好自己的产品，才能更好解决国内大数据的需求。