大数据分析案例：从Cloudera转到MapR

Web智能提供商ComScore对其“大数据”分析系统做了一次巨大的改变。

位于美国弗吉尼亚州的ComScore公司将“大数据”环境从Cloudera Apache Hadoop转到了MapR公司提供的平台上。ComScore自称有超过1000台服务器并继续将Cloudera用作培训目的，更换的决策大部分是基于成本的考虑，另外还有MapR支持NFS协议。

ComScore的CTOMikeBrown说：“我们要投资购买的MapR，每年还按节点支付一定百分比的维护费用。NFS可以让我们的企业系统很容易访问集群中的数据。”

日益增长的数据存储促使ComScore采取行动

ComScore监控并度量在线购买者的行为。公司跟踪了超过200万消费者，这些消费者允许ComScore监控和分析他们在网上的购买和点击行为。通过分析消费者的行为，ComScore能用有价值的智能方式为广告商提供关于如何确定目标市场的方案，并按他们的要求做出统计。

“大部分网络广告都是通过我们的工具来做规划，购买和销售，”Brown说：“我们为广告商建议最适合投放广告的站点。

跟踪200万消费者，分析他们的行为，意味着ComScore每天必须要处理巨大的数据量。据Brown说，公司当前管理了超过PB级别的数据。

由于数据持续大量地增长，公司于2009年开始使用Hadoop，并于去年七月实现了从Cloudera到MapR的切换。

随着全球经济出现滑坡，许多IT专家说为数据管理项目采购、审批、申请资金都比较困难。据公司的核心业务的副总裁WillDuckworth说，如果实施MapR这就不成问题了。

Duckworth说，ComScore在经过相对轻松的实施过程后，于去年七月正式上线MapR。当时，公司有还运行着Cloudera产品，要求不停机或少停机完成到MapR的迁移。ComScore的IT团队通过拷贝Cloudera数据再将数据重新加载进MapR就很容易地实现了这一目标。

“如果要再做一遍，我们可能就不会重新装载数据了，因为数据量现在更大了，”Duchworth说：“我们可能会采用滚动的方式，先处理25%的机器，先将他们转为MapR，然后拷贝数据，然后再做另外25%的机器，就这样完成所有的。”

Duckworth和Brown特别喜欢MapR的直接访问NFS功能，它将Hadoop分布式文件系统数据显示为NFS文件，可以很容易地汇总，修改或覆盖。

“HDFS是内部的，但为了从Hadoop存取数据，你必须要做一些类似HDFS导出的操作，”Brown说：“使用MapR，可以先将HDFS装载为NFS，然后再使用本地的工具，无论是Windows还是Linux，UNIX都行。”

排序软件增加数据准备的速度

MapRHadoop分布式计算极大地加快ComScore大数据管理操作，但这不是公司所采取的唯一的高性能计算解决方案。

ComScore也使用了业务应用巨头SAP的高速分析数据库SybaseIQ来增强其客户知识平台(CKP)，这是给用户提供用户网上行为分析的数据仓库。

据ComScore透露，CKP服务监视了100万客户的行为，SybaseIQ数据仓库目前存有40T的压缩信息。

此外，ComScore正在运行Syncsort的数据集成和排序软件以加速Hadoop处理。公司于2009年上线了Syncsort，最近已升级到SyncsortDMExpress6.5，软件的最新版本新增了对Hadoop的支持。

在将数据装载进MapR做进一步处理和分析之前，DMExpress聚集重复的字符串，帮助ComScore压缩进来的数据流。他们将ComScore直接嵌入到Syncsort的25~30个业务应用中以增加数据准备过程的效率。

Brown说：“我们购买了Syncsort来帮助解决排序的问题，因为数据量增长得很快，Syncsort的压缩算法通过寻找重复字符串并排序数据，把这些重复数据放在一起，从而增加了压缩比。”

大数据分析最佳实践

Brown说，正在考虑大数据分析可行性的组织应该记住，要规划潜在的数据增长——因为大数据爆炸没有迹象会减慢下来。

对数据排序软件感兴趣的公司应该寻找易于实施并完全能与现有的硬件兼容的产品。

“这种技术可以让很多系跑得更快，”Brown解释说：“但是有个问题没有考虑：是否能很容易地将这个软件与现有的应用集成。”

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。