上图是2016大数据版图英文完整版。
为了更好的使大家了解行业现状,我们整理出了对应公司的中文介绍,以飨读者。
本次介绍的公司为如图所示的部分公司,请悉知:
基础设施
1.基于Hadoop
Cloudera是Hadoop生态系统中,规模最大、知名度最高的公司。企业如何使用和管理Hadoop的产品,如何挖掘它的价值,推动自家业务增长, Cloudera就是提供这方面的专业服务,并从中获利。Cloudera出售基于Hadoop的软件,也发布自家版本的Hadoop产品,帮助订阅客户管理数据。
Hadoop数据管理软件与服务提供商Cloudera已完成新一轮融资,募集资金6500万美元,估值达到7亿美元。
Hortonworks致力于通过可最大化利用所有数据——包括动态数据和静态数据——价值的互联数据平台 (Connected Data Platforms),以推动可操作情报的发展。Hortonworks 的开放式互联平台可帮助企业管理所有数据、动态数据以及静态数据,为您的组织启用可操作情报。
MapR公司是美国加州的圣何塞市的一个企业管理软件公司,主要专注于可用性和数据安全优化和开发、销售Apache Hadoop的衍生软件,对Apache Hadoop主要贡献有:HBase、Pig (编程语言)、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop发行版的要求提供完整的数据保护、无单点故障,这大大的提高了其性能与易用性。
Pivotal 是由通用电器、EMC 和 VMware 联合组成的合资公司,但是独立于三个公司进行运营。这样可以让 Pivotal 以更大的灵活性进行运作,包括使用开源方式运作软件。Pivotal 同时宣布其已经加入 Open Data Platform 开放数据平台,这是一个目前有 14 个公司组成的组织,包括 Hortonworks、GE、IBM、Verizon 等等,这个组织主要是提供 Hadoop 的企业版。
Pivotal公司是将原有EMC和VMware的一些优良的软件资产进行整合,重要产品包括数据分析:GreenPlum数据仓库、Hadoop、内存计算GemFire等;应用开发:Spring中间件、MySQL Dev等;云自动化:Cloud Foundry软件。
IBM InfoSphere 平台提供了数据整合、数据仓库、主数据管理、大数据和信息治理等解决方案。
2011年5月,IBM正式推出InfoSphere大数据分析平台。这是目前业界唯一的专门针对大数据分析的平台产品。目前业内主流的做法是在已有产品中嵌入一些大数据功能。
InfoSphere大数据分析平台包括 BigInsights和Streams,二者互补,Biglnsights对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。
BlueData是一家为大数据部署生产虚拟化技术的公司。BlueData有一个名为EPIC的软件平台,让企业能够在虚拟环境中创建Hadoop和Spark簇。BlueData,由一批VMware的校友创办,目前已经筹集了总计3900万美元。
Jethro SQL-on-Hadoop BI-on-Hadoop、大数据、交互式商业智能,SQL查询加速度和介于两者之间的任何服务。
2.云Hadoop
Amazon Web Services AWS是亚马逊公司旗下云计算服务平台,为全世界范围内的客户提供云解决方案。AWS面向用户提供包括弹性计算、存储、数据库、应用程序在内的一整套云计算服务,帮助企业降低IT投入成本和维护成本。
AWS提供了一整套基础设施和应用程序服务,使您几乎能够在云中运行一切应用程序:从企业应用程序和大数据项目,到社交游戏和移动应用程序。AWS面向用户提供包括弹性计算、存储、数据库、应用程序在内的一整套云计算服务,能够帮助企业降低IT投入成本和维护成本。
Microsoft Azure是微软基于云计算的操作系统,主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、Web和PC上的应用程序。云计算的开发者能使用微软全球数据中心的储存、计算能力和网络基础服务。Azure服务平台包括了以下主要组件:Windows Azure;Microsoft SQL数据库服务,Microsoft .Net服务;用于分享、储存和同步文件的Live服务;针对商业的Microsoft SharePoint和Microsoft Dynamics CRM服务。
microsoft azure服务平台现在已经包含如下功能:网站、虚拟机、云服务、移动应用服务、大数据支持以及媒体功能的支持。
Google cloud platform谷歌云平台是由谷歌提供的云计算平台,云平台提供了从简单的网站到复杂的应用程序开发构建产品的一系列程序。
谷歌云平台是谷歌工作中的一套企业解决方案,并提供一组模块基于云服务的主机开发工具。例如,主机和计算、云存储、数据存储、翻译API和预测API。
Cazena通过云服务提供大数据分析,立志使大数据分析成为一项简单易行的服务。Cazena是一家帮助企业处理数据的新平台,已获2000万美元B轮融资,融资由Formation 8领投。其目标是极大简化商业中的大数据进程处理。
treasure data提供结合Hadoop和托管在AWS上的数据仓库服务产品,目前已经筹得500万美元,这是一笔来自Sierra Ventures的投资。一旦进入Treasure Data平台,用户就可以通过SQL或者Pig进行查询,也可以在其上运行MapReduce作业,然后将其打造成一款商业智能工具,甚至是“黄金镜像”的数据库。它和托管在AWS上的数据仓库服务—— 亚马逊自家出品的Redshift的区别是:AWS的各种大数据服务像S3,Redshift和弹性MapReduce都是像积木一样拼凑在一起,Treasure Data在单一平台上提供了一个完整的包。
Altiscale由Raymie Stata(前雅虎CTO)创立,Hadoop云服务模式HaaS(Hadoop as a Service)提供商,现主要面对有经验的Hadoop用户。近日(2013年6月)Altiscale募集了1200万美元A轮融资。
Altiscale软件阵容包括MapReduce、HDFS、Apache Hive以及Fuse。其方案支持Java、Python、R、Ruby、C/C++以及Apache Pig。在数据管理方面,企业用户可以使用Apache Flume、Scribe、Kafka等数据连接工具。Altiscale的收费模式像是现今移动运营商普遍采用的月套餐模式。
qubole初创公司Qubole由Facebook前工程师Ashish Thusoo和Joydeep Sen Sarma联合创立,他们也是开发Hadoop查询语言Hive的两位关键人物。不过Qubole的产品是托管在AWS云计算平台之上,并为用户提供可管理的Hive服务。
近日,Qubole宣布获得了700万美元的A轮融资,该轮融资由Charles River Ventures和Lightspeed Ventures引导,不过该轮融资包含了2011年的种子投资。Qubole服务托管在亚马逊AWS云计算平台之上,用户可以在其上运行各种Hadoop Jobs,包括Hive、MapReduce以及Pig。
3.spark
Databricks提供在云端基于Spark构建的大数据平台,另外还包括培训、给其他国外很多公司提供最高层的技术支持等。近期depabricks得到来自Andreessen Horowitz的1400万美元投资。
GridGain是一个开源的网格计算框架,专著于提供平行计算能力,能够与JBoss和Spring相集成。GridGain 是从网格计算进入到云计算平台,是一种云计算框架,可以让Java开发者编写自己本地的云计算应用。
GridGain不仅可以完成本职工作-内存计算/数据网格,还提供了:GGFS(GridGain In-Memory File System),类似Spark生态圈中的Tachyon,能够加速MapReduce任务的执行;完整的ACID和事务支持,可以作为内存数据库;流式数据/事件处理,可以作为CEP事件处理器。
Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储系统(如Amazon S3, Apache HDFS, RedHat GlusterFS, OpenStack Swift等),为用户提供统一的、易用的、高效的数据访问平台。
4.集群服务
Kubernetes是Google开源的容器集群管理系统。它构建Ddocker技术之上,为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等整一套功能,本质上可看作是基于容器技术的mini-PaaS平台。
HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,用于解决大数据问题,类似 Hadoop 平台。HPCC 是一个用来集群服务器并进行大数据分析的系统,HPCC 在 LexisNexis 内部使用多年,是一个成熟可靠的系统,包含一系列的工具和名为 ECL 的高级编程语言以及数据仓库工具。
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app)。几乎没有性能开销,可以很容易地在机器和数据中心中运行。最重要的是,他们不依赖于任何语言、框架包括系统。Docker自2013年以来非常火热,无论是从 github 上的代码活跃度,还是Redhat在RHEL6.5中集成对Docker的支持, 就连 Google 的 Compute Engine 也支持 docker 在其之上运行。
mesosphere由前 Twitter 与 Airbnb 的工程师创立,他们利用了在原雇主处建设数据中心的经验以及所采用的开源工具,开发出了一套数据中心资源的管理系统Apache Mesos,让所有资源整合为大资源池,把数据中心当作一台大计算机来进行管理。Mesos可以实现应用在数据中心跨服务器的高效部署(资源分配与回收)自动化,而Mesosphere则是为了加速Apache Mesos的推广。半年前这家初创企业刚刚因为这一创意获得了A16Z等1050万美元的A轮融资。
CoreOS是一个基于Linux 内核的轻量级操作系统,为了计算机集群的基础设施建设而生,专注于自动化,轻松部署,安全,可靠,规模化。作为一个操作系统,CoreOS 提供了在应用容器内部署应用所需要的基础功能环境以及一系列用于服务发现和配置共享的内建工具。
Pepperdata是管理大量数据的一个开放源码的平台(大数据)。主要目标是资源使用可视化,更快诊断问题;SLA任务控制,保证SLA任务;资源更合理利用,提高集群吞吐量。近期宣布了1500万美元的B系列融资。
StackIQ精于自动化和管理大数据集群,目前得到了600万美元的B系列融资。专注领域包括云计算、集群、系统管理大数据,Enterprise Linux,Hadoop,OpenStack,CloudStack、MapR,Cloudera,Hortonworks,数据中心自动化、网络级,大型基础设施,HPC,软件定义自动化,Linux安装等。
5.NoSQL databases
Amazon DynamoDB 是一项快速灵活的 NoSQL 数据库服务,适合所有需要一致性且延迟低于 10 毫秒的任意规模的应用程序。它是完全托管的云数据库,支持文档和键值存储模型。灵活的数据模型和可靠的性能使其成为移动、Web、游戏、广告技术、物联网和众多其他应用的不二之选。Amazon DynamoDB被设计成用来解决数据库管理、性能、可扩展性和可靠性等核心问题。
google cloud platform
oracle甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989年正式进入中国市场。2013年,甲骨文已超越 IBM ,成为继 Microsoft 后全球第二大软件公司。
甲骨文公司产品主要有以下几类:
1.服务器及工具:
数据库服务器:2013年最新版本Oracle 12C。
应用服务器:Oracle Application Server。
开发工具:OracleJDeveloper,Oracle Designer,Oracle Developer,等等。
2.企业应用软件
企业资源计划(ERP)软件。已有10年以上的历史。2005年,并购了开发企业软件的仁科软件公司(PeopleSoft)以增强在这方面的竞争力。
客户关系管理(CRM)软件。自1998年开始研发这种软件。2005年,并购了开发客户关系管理软件的希柏软件公司(Siebel)。
3. Oracle职业发展力计划(Oracle WDP)
Oracle WDP 全称为Oracle Workforce Development Program,是Oracle (甲骨文)公司专门面向学生、个人、在职人员等群体开设的职业发展力课程。Oracle的技术广泛应用于各行各业,其中电信、电力、金融、政府及大量制造业都需要Oracle技术人才,Oracle公司针对职业教育市场在全球推广的项目,其以低廉的成本给这部分人群提供Oracle技术培训,经过系统化的实训,让这部分人群能够迅速掌握Oracle最新的核心技术,并能胜任企业大型数据库管理、维护、开发工作。
2010年,甲骨文称其第四财季总利润为23.6亿美元,每股46美分。
Mark Logic公司的拳头产品MarkLogic Server是以文档为中心的领域专用数据库,专门针对半结构化和非结构化数据进行设计和优化,能够实现TB级非结构化数据资源的全文检索。MarkLogic Server支持针对Web内容、XML文档和JSON内容的RESTFul和HTTP请求。在数据模型组织方面,MarkLogic Server采用XML树状结构组织,数据查询和检索使用的DML和DDL语言为XQuery,此外,Mark Logic 还是XQuery标准发展和应用的推动者。
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
DataStax 是一家为大型公司提供 “NoSQL” 数据库的技术公司,客户包括 eBay、Adobe 以及 Netflix 等。DataStax是一家位于加州的初创公司,提供了一个商业版本的Apache Cassandra NoSQL数据库,近日该公司获得了4500万美元的D轮融资,该轮融资由Scale Ventures引导,这是一位新投资者,同时还有DFJ Growth和Next World Capital,现有的投资者Lightspeed Venture Partners、Crosslink Capital以及Meritech Capital Partners也进行了参投。从2010年发布产品以来,DataStax已经获得了总计8370万美元的风险投资。
Aerospike是一个以分布式为核心基础,可基于行随机存取内存中索引、数据或SSD存储中数据的数据库。Aerospike主要用于广告业务,作为一个服务器端的cookie存储来使用,在这种场景下读取和写入性能是至关重要的。
CouchBase是NoSQL数据库,是开源、免费的NoSQL文档型数据库,使用了JSON作为其文档格式。基本上CouchBase结合了Apache CouchDB和MemBase两种数据库的功能特性而构建的。CouchDB的面向文档的数据模型、索引和查询功能与MemBase分布式键值数据模型相结合、高性能、易于扩展、始终保持接通的能力,这就是CouchBase。
SequoiaDB巨杉数据库是一款支持SQL、高并发、实时性、分布式、可扩展、灵活存储的操作型NewSQL数据库(Operational NewSQL Database)。作为商业化的数据库产品,现已开源。SequoiaDB企业版还具有一系列企业级特性,帮助企业更好落地大数据。
Redis Lab是加速非结构化数据应用的开发进程。Redis可以运行在公有云上,也提供本地部署,容器分发的模式。通过OpenPOWER提供的CAPI技术,Redis同样可以在flash上运行,在内存中运行是一样的,这意味着,得到非常大的资源节省,成本节省可以达到70%。
influxdata是一个强大的实时监控系统,分为4个部分, Telegraf负责收集监控数据,并将数据输出到influxDB数据库,它支持多种类型的数据输入,比如httpjson、MySQL、rabbitMQ等等。InfluxDB是time-series data数据库,负责高效处理实时数据。Chronograf是图形展示工具,负责从InfluxDB收集数据,并将数据图表以web的形式发布。Kapacitor是InfluxDB的数据处理引擎。Enterprise Manager是正在开发的UI系统,用于更加广泛的图形展示。
6.NewSQL databases
SAP HANA是一个软硬件结合体,提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。SAP内存数据库的数据并不是只在内存里,也会不停写到硬盘里,这就用到复制服务器Replication Server,包括Log-based,Trigger-based和ETL-based。这些复制服务器需要用到Sybase Replication Server、Sybase Replication Server Agent、Sybase Adaptive Server EntERPrise (ASE,适用性服务器)等,以及HANA Load Controller和BO Data Services。
Clustrix NewSQL数据库初创公司 Clustrix最近获得1650万美元的C轮融资,该轮融资的投资方包括红杉资本(Sequoia Capital)、U.S. Venture Partners以及ATA Ventures。而截至目前为止,这家成立于2005年的创新公司总融资金额已经高达4650万美元。
Clustrix在两年前曾推出了一个可高度扩容的伸缩式数据库解决方案Sierra,它提供了和SQL数据库相似的功能,同时还可以对数据存储进行扩展。Clustrix Sierra在业内被称之为云计算时代的MySQL。
Pivotal公司是将原有EMC和VMware的一些优良的软件资产进行整合,重要产品包括数据分析:GreenPlum数据仓库、Hadoop、内存计算GemFire等;应用开发:Spring中间件、MySQL Dev等;云自动化:Cloud Foundry软件。
Paradigm是全球石油和天然气工业软件启用解决方案的最大的独立开发者。易于使用的技术和工作流程,为客户提供更深入的了解,结合前沿科学,高性能的台式机和集群计算、可扩展的数据管理,提供高度精确的结果和生产力。
NuoDB最近发布了云数据库管理系统,该系统支持SQL查询,ACID事务(原子性、一致性、隔离性、持久性),更可方便地扩展至多个节点。它是为一些公司而专门设计的,这些公司需要将数据库扩展至多个服务器,并且不想失去关系代数和事务保障的能力。NuoDB被设计成便于扩展、可容错、高性能——提供比其他关系型数据更优秀的单节点性能。
MemSQL前Facebook工程师创办的MemSQL公司获500万美元投资。号称世界上最快的分布式关系型数据库,兼容MySQL但快30倍,能实现每秒150万次事务。原理是仅用内存并将SQL预编译为C++。
MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB(英语:XtraDB)来代替MySQL的InnoDB。 MariaDB由MySQL的创始人Michael Widenius(英语:Michael Widenius)主导开发,他早前曾以10亿美元的价格,将自己创建的公司MySQL AB卖给了SUN,此后,随着SUN被甲骨文收购,MySQL的所有权也落入Oracle的手中。MariaDB名称来自Michael Widenius的女儿Maria的名字。
MariaDB基于事务的Maria存储引擎,替换了MySQL的MyISAM存储引擎,它使用了Percona的 XtraDB,InnoDB的变体,分支的开发者希望提供访问即将到来的MySQL 5.4 InnoDB性能。这个版本还包括了 PrimeBase XT (PBXT) 和 FederatedX存储引擎。
VoltDB是一个内存中的开源OLTP SQL数据库,能够保证事务的完整性(ACID)。它是Postgres和Ingres联合创始人Mike Stonebraker领导开发的下一代开源数据库管理系统。它能在现有的廉价服务器集群上实现每秒数百万次数据处理。VoltDB通过SQL引擎把数据分发给集群服务器的每个CPU进行处理。 每个单线程分区自主执行,消除锁定和闩锁的需求。 VoltDB可以通过简单的在集群中增加附加节点的方式实现性能的线性增加。
Splice
CitusData由YC孵化器投资的一家数据库初创公司,其旗舰产品为CitusDB,CitusData在2013年2月实现了CitusDB在Hadoop数据上的快速SQL查询。CitusData表示在未来会将CitusDB扩展到MongoHQ及其它数据库产品,特别是关系型数据库、MongoDB、Amazon S3等产品平台。
Deepdb
Trafodion是一个构建在Hadoop/HBase基础之上的关系型数据库,它完全开源免费。Trafodion能够完整地支持ANSI SQL,并且提供ACID事务保证。和传统关系数据库不同的地方在于,Trafodion利用底层Hadoop的横向扩展能力,可以提供极高的扩展性。而传统数据库,比如MySQL,在数据量达到P级别的时候就很难处理。而Trafodion却可以借助HBase的扩展性,仅通过增加普通Linux服务器就可以增加计算和存储能力,进而支持大数据应用。
Cockroach Labs作为一个分布式数据库,CockroachDB有一个鲜明的特性,就是支持ACID事务。CockroachDB是Google备受瞩目的Spanner的开源模仿。CockroachDB团队创业获得625万美元投资。
来源:数盟社区
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。