大数据公司Splunk和Cloudera的核心竞争力在哪里？

最近在美国做了一个big data的presentation，接触到了Splunk和Cloudera两家公司后一直在思考如下两个问题：

1. 像硅谷这种初创公司Splunk和Cloudera，他们的核心竞争力究竟在哪里

2. 传统软件巨头SAP, Oracle, IBM等也一直在提Big data, Cloud Computing.难道会没有类似的解决方案

Splunk面向的是细分市场，分析Machine Log，并在上面集成了完整的专用模块。所有用例都是相对专门的领域，因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象，以及相关的优化和功能，而不是大数据。如果我没搞错的话，Splunk刚出的时候是单机的。

Cloudera以及类似的两家Hortonworks(已上市)还有MapR都是Hadoop技术的供应商。这些都是立足于大数据平台的公司。他们提供的产品或者服务更多是通用的而非类似Splunk那样更面相细分市场。基本上任何大数据分析的公司都多少会用到Hadoop生态圈的解决方案。他们的核心竞争力在我看来是，“Hadoop血统纯正”。他们基本上都把持着Hadoop生态圈某个大型项目的话语权，体现对整个生态圈的影响力，一方面出售自己的附加服务。Hadoop生态圈已经形成气候，大多数公司都不希望选用一个无法融入生态圈的平台作为自己的业务基础，因为这样任何其他生态圈的组件会很难部署和应用。因此这些公司一方面提供附加服务，一方面要保持自己在生态圈里的话语权：贡献和控制推广更多开源项目，一旦旗下的解决方案得到更多市场，那用户就会更偏向使用它们的附加服务。

SAP，IBM之类的，它们并非没有发力。SAP有开发Hana，IBM有BigInsights集成了一整套解决方案(看起来就是只要大家买得起，Cloudera就该靠边站了，当然我没问过价)。Oracle前几个月开了Big Data大会，也有Big Data系列的产品。连Intel都入股了Cloudera。

我的感觉是，以这些大公司的技术实力，玩转这些基本是小意思。说真的，大数据平台，技术上并非有多复杂，这才造成现在群雄割据的局面，任何公司扯个大旗都能做一套可用的平台。IBM在Hadoop峰会做了BigSQL的演讲，期间狠狠嘲笑了一番其他SQL on Hadoop的解决方案，说他们都跑不全TPC-H测试，更不用提和BigSQL做Benchmark了。IBM的BigSQL团队是基于原本研发并行数据库的团队，Hive，Presto，Drill，Impala之类的，我相信完全无法和I社多年里数据库上的积累可比。不过用户是否关心大概并不关心。大多数客户更需要的是一个便宜，能用，容易改，融入生态圈，演进迅速不断适应新需求的产品。这些大公司的东西，并非不好，但是很贵，而且这个领域风云变化太快，而且大多数用户是互联网公司，技术和决策变化更快，你是否愿意投资在一个不知道会用多少天的产品又或者明天MapReduce过时了大家都转用别的了，你是否也跟进去买IBM的新产品

现在大数据这么火，但是真的利用它产生价值的公司还多数是互联网公司。传统企业也许在跟进，但是应该还不是多数。银行电信之类有钱的大企业才是IBM之类的公司的主要客户。可惜他们并不是很关心大数据或者大数据并不是他们的业务核心。互联网公司以大数据为核心，但是他们要么赚不了几个钱，要么自己更愿意投入人力去研发，BigInsights之类的东西好处在于方便省心强大，却并非他们所偏好的。因此传统IT大企业想要像Cloudera那样赚钱，并不是很容易的事情，因为Cloudera之类的，未必赚得到多少钱。

最好的办法，除了自己投钱试水，不如控制一个开源解决方案，或者收购入股其他公司。安全又有效。