在绘制大数据战略蓝图时,提出一些恰当的问题保证企业能够得到有用的信息是非常重要的。企业都担心落在竞争对手的后面和利用大数据实现各种业务目标的同行的后面。但是,在被大浪卷走之前,你要后退一步并且考虑五个问题以保证你走上正确的道路。
你的问题
这似乎是一个显而易见的问题。但是,感受到压力要成为数据驱动的企业的那些公司也许会冒进,不首先恰当地定义问题。你是不能把你需要的数据放入Excel表格的商务分析师吗?你首先不能访问你的公司的大数据吗?你是负责减少查询返回的等待时间的首席信息官吗?你是对查询结果需要等待数天或者数星期感到厌烦的非技术用户吗?你的数据是结构化的还是非结构化的?还是拥有上述所有问题?
当然,你可能面对的问题之一是预算,特别是在创业企业和中小企业中。数据仓库和专用硬件的价格让他们望而却步。如果可承受性是一个问题,你要根据在商品化硬件上运行的软件制定一个战略,不需要数据仓库。
你为免费(开源)软件支付的价格
围绕Hadoop一直有许多争论。虽然Hadoop对于某些企业需求来说是一个非常好的开源软件解决方案,但是,免费并不意味着不支付任何费用。Hadoop在商品化硬件上运行。由于它需要电源和网络连接,这就需要投资。核心的Hadoop发布版是免费的开源软件。但是,有些厂商有专有的Hadoop发布版。即使开源软件发布版也有专有的插件管理工具。除非你从Apache软件基金会下载Hadoop组件,否则,你会像使用商业软件一样遇到同样的软件许可证和厂商锁定等令人担心的问题。如果你有足够的资金支付IT和硬件费用,Hadoop也许对你非常合适。但是,Hadoop并非适用于一切需求。这就引出了下一个问题。
规模是否重要
围绕大数据的谈话主要是PB级的数据。然而,大多数企业使用的数据仅达到TB级。当在TB级的范围内工作的时候,大型机器集群的开销也许不能得到投资回报。你会发现那个遗留的解决方案对于你的企业需求也许规模太大,是不必要的。如果是在TB级范围内,你就是在使用一台服务器的范围之内。你可以使用一台服务的解决方案,从而降低成本和简化。仅仅在10年前,一台服务器只能处理GB级的数据。但是,现在的商品化硬件已经能够处理TB级的数据,从而提供了以前不能提供的选择范围。
你的数据在哪里
你的大多数数据是在企业内部的,你的策略与大多数数据在云中的企业有所不同。例如,如果你的数据在亚马逊或者Rackspace的云服务中,那么,在那个框架中运行大数据解决方案是有意义的,因为数据很容易在那个环境中迁移。然而,如果你的大多数数据在企业内部并且你正在考虑在云中运行你的大数据查询,你要三思。大数据是很难迁移并且保持同步的。当上载到云的时候会有许多挑战。在这种情况下,大数据最好保持在企业内部的环境中。
各种技术之间的区别
目前有三种类型的技术用于大数据分析:软件数据库设备、硬件数据库设备和分布式数据库。软件数据库设备部署在商品化硬件上,一般部署在一台计算机上,因此,价格便宜,结构简单。
硬件数据库设备包括与专有硬件捆绑销售的专有软件。专有硬件的技术规格比商品化硬件更强大,因此价格可以高50倍。分布式数据库是指部署在计算机集群中的软件,可以平行运行资源密集型的处理操作。这包括复杂的架构。你可能遇到的其它技术都是不能直接处理大数据的规模较小的技术,如内存处理或者联机分析处理。上载到这些数据中心技术的数据在上载之前要显着删减,一般采用上述的一种大数据技术。
来自:CIO时代
链接:http://www.ciotimes.com/bigdata/85605.html
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。