2016全球大数据战略版图剖析（7）：跨基础设施/分析篇

本次介绍的公司为如图所示的部分公司，请悉知：

跨基础设施/分析

Amazon Google Microsoft IBM略

SAP公司（纽交所代码：SAP）成立于1972年，总部位于德国沃尔多夫市，在全球拥有6万多名员工，遍布全球130个国家，并拥有覆盖全球11,500家企业的合作伙伴网络。作为全球领先的企业管理软件解决方案提供商，SAP帮助各行业不同规模的企业实现卓越运营。从企业后台到公司决策层、从工厂仓库到商铺店面、从电脑桌面到移动终端—SAP助力用户和企业高效协作，获取商业洞见，并从竞争中脱颖而出。SAP的软件和服务能够帮助客户实现盈利性的运营，不断提升应变能力，实现可持续的增长。全球188个国家的232,000家客户正在从SAP解决方案中获益, 其中包括财富500强80%的企业及85%最有价值的品牌。

SAS（全称STATISTICAL ANALYSIS SYSTEM，简称SAS）是全球最大的软件公司之一，是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。

1976年SAS软件研究所（SAS INSTITUTE INC。）成立，开始进行SAS系统的维护、开发、销售和培训工作。期间经历了许多版本，并经过多年来的完善和发展，SAS系统在国际上已被誉为统计分析的标准软件，在各个领域得到广泛应用。

1010数据的商业智能（BI）提供软件即服务(SaaS)的云模式。它利用原始数据的深入分析直接生成完整的洞察分析结果。1010数据将强大的后台数据库与灵活的前台工具相结合。相比其它的数据管理方法，1010的数据管理工具被设计成以较低的成本来处理多个TB的数据库。1010数据允许客户在短时间内执行真正的即时（ad hoc）分析。有了1010数据，用户在分析和管理数据上就拥有了强大的数据库后台，加上它的前台能力更能充分地实现后台强大的功能。1010数据在通用硬件上就能运行，提供一个标准化的，较为灵活的流程，使成本更低。

2011年10月4日，全球最大的PC厂商惠普宣布，该公司已达成67亿美元收购英国软件公司Autonomy的交易。Autonomy CEO麦克·林奇则将在惠普软件部门担任领导岗位。惠普决定效仿IBM，将重点转向软件和服务，宣布将“全部或部分分拆”个人电脑业务，决定放弃起步不久的平板电脑和智能手机业务，并且打算以近110亿美元收购英国软件公司Autonomy。在此期间，惠普董事会解雇了公司CEO李艾科，并且任命eBay前CEO惠特曼为新任CEO。

惠普2011年2月份起始3月21号完成收购Vertica。Vertica基于列存储。基于列存储的设计相比传统面向行存储的数据库具有巨大的优势。同时Vertica支持MPP（massively parallel processing）等技术，查询数据时Vertica只需取得需要的列，而不是被选择行的所有数据，其平均性能可提高50x-1000x倍。（查询性能高速度快）

VMware（中文名威睿”，纽约证券交易所“代码：VMW）虚拟机软件，是全球桌面到数据中心虚拟化解决方案的领导厂商。全球不同规模的客户依靠VMware来降低成本和运营费用、确保业务持续性、加强安全性并走向绿色。2008年，VMware年收入达到19亿美元，拥有逾150,000的用户和接近22,000多家合作伙伴，是增长最快的上市软件公司之一。VMware总部设在加利福尼亚州的帕罗奥多市（Palo Alto）。

TIBCO软件授权人员、开发者、用户和商业用户提供快速的数据解决方案，做出正确的数据可以在更快的答案，更好的实时决策，聪明的行动。在过去的15年中，全球各地的数千家企业依靠TIBCO技术整合应用和生态系统，分析他们的数据，并创建实时的解决方案。

Teradata天睿公司（纽交所代码：TDC），是美国前十大上市软件公司之一。经过逾30 年的发展，Teradata天睿公司已经成为全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商。

ORACLE 甲骨文公司，全称甲骨文股份有限公司(甲骨文软件系统有限公司)，是全球最大的企业级软件公司，总部位于美国加利福尼亚州的红木滩。1989年正式进入中国市场。2013年，甲骨文已超越IBM，成为继Microsoft后全球第二大软件公司。

NetApp（纳斯达克股票代码：NTAP），不断以创新的理念和领先的技术引领存储行业的发展，是向目前的数据密集型企业提供统一存储解决方案的居世界最前列的公司，其 Data ONTAP是全球首屈一指的存储操作系统。自 1992 年创立以来，NetApp一直在率先提供一流的技术、产品和合作关系，提升IT效率和灵活性的储存和数据管理解决方案，不断推动存储业的发展。NetApp 的存储解决方案涵盖了专业化的硬件、软件和服务，为开放网络环境提供了无缝的存储管理。

开源

架构

HDFS MapReduce YARN SPARK SLIDER略

Mesos计算框架一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、Hypertable、Spark。

Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎，它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。

ApacheKylin(麒麟)是由eBay贡献给开源社区的大数据分析引擎,支持在超大数据集上进行秒级别的SQL及OLAP查询,目前是Apache基金会的孵化项目。

CDAP是一个开源的框架，用于构建和部署在ApacheHadoop数据应用上。

Query/Data Flow

SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询，不需要转换或语法改造。该技术的主要特点之一是它的连接器。从MongoDB，HBase，Cassandra和Apache的Spark，SlamData同大多数业界标准的外部数据源可以方便的进行整合，并进行数据转换和分析数据。你可能会问：“我不会有更好的数据池或数据仓库工具吗？请认清这是在NoSQL领域。

Hive略

Apache Drill 在基于 SQL 的数据分析和商业智能（BI）上引入了 JSON 文件模型，这使得用户能查询固定架构，演化架构，以及各种格式和数据存储中的模式无关（schema-free）数据。该体系架构中关系查询引擎和数据库的构建是有先决条件的，即假设所有数据都有一个简单的静态架构。

GoogleCloudDataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。

数据访问、协调、实时、统计工具 章节略

机器学习

来自微软公司的CNTK工具包的效率，“比我们所见过的都要疯狂”。这部分归功于CNTK可借助图形处理单元（GPU）的能力，微软自称是唯一公开“可扩展GPU”功能的公司。（从单机上的1个、延伸至超算上的多个）在与该公司的网络化GPU系统（称之为Azure GPU Lab）匹配之后，它将能够训练深度神经网络来识别语音，让Cortana虚拟助理的速度达到以前的十倍。去年4月的时候，CNTK就已经面向研究人员开放，只是当时的开源授权限制颇多。不过现在，它已经彻底开放了，而深度学习的初创者们将最为受益。

VELES 是分布式深度学习应用系统，用户只需要提供参数，剩下的都可以交给 VELES。VELES 使用 Python 编写，使用 OpenCL 或者 CUDA，利用基于 Flow 的编程。VELES 是三星开发的另一个 TensorFlow。

Deeplearning4j是用Java编写的第一个商业级的，开放源码的深学习型图书馆。这意味着要使用在商业环境中，而不是进行广泛的数据探索研究工具。 Deeplearning4j是解决不同的问题，如识别面孔，声音，垃圾邮件或电子商务欺诈最有帮助。

查询

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。

安全

Apache Ranger成为HDP2.2的一部分。Apache Ranger是一个全面的方案，提供集中安全策略的管理，并解决授权和审计。例如，管理员可以轻松为个人用户和组对文件，表格等设置策略，然后审计对具体数据来源的访问。最终，安全需要全面的方案，并需要在堆栈的所有层进行处理。我们正在为整个Hadoop生态系统编织一个安全网，这是必要的。

可视化

Apache Zeppelin提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括spark, hive, tajo等，原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的，就是来自于当时的demo。