MapReduce

  • 数据开发系列篇:大数据处理和编程实践Hadoop

    Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…

    2016-04-10
    0
  • 教你怎么跟老婆解释MapReduce的概念?

    摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…

    2016-04-07
    0
  • mmTrix大数据分析平台的基本架构构建过程

    摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…

    2016-04-02
    0
  • Spark在美团具体应用场景下的实践

    前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以…

    2016-03-31
    0
  • 十大最热门的大数据技术

    摘要:随着大数据分析市场的快速渗透到各行业务,哪些大数据技术是刚需?哪些技术有极大的潜在价值? 根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术: 预测分析:随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险; NoSQL数据库:非关系型数据库包括Key-value…

    2016-03-19
    0
  • 一篇文章读懂Hadoop:风雨十年,未来何去何从

    摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…

    2016-03-13
    0
  • Hadoop数据操作系统YARN全解析

    摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…

    2016-02-28
    0
  • 谈谈MATLAB大数据处理

    摘要: 今天多数的大数据方案都是依托Hadoop环境来做结构化和非结构化数据处理,如何把自己的Hadoop算法快速部署到实际的生产环境当中去,对很多企业的大数据部署也提出了挑战。CSDN专访MathWorks中国资深技术专家陈建平,分享大数据解决方案。 近年来,随着大数据在Google、Facebook等企业的成功应用,很多传统企业和初创公司都转向应用大数据…

    2016-02-25
    0
  • 从大数据的风水图,来看到底大数据是怎么回事

      摘要:本文中的Big Data Landscape图笔者随手分享在LinkedIn上,不晓得引起大量转发和评论,截止本周,得到6700个like,3800次share,400多条comment,笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck,提下这一家VC,主要投资于早…

    2016-02-24
    0
  • 50PB海量数据排序,谷歌是如何做的?

    摘要:用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说很有借鉴意义。 为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。 最初的MapReduce论文就报…

    2016-02-23
    0
  • 国内云计算服务竞品分析

    摘要:据NIST(美国国家标准与技术研究院)的权威定义,云计算的服务模式分为IaaS,PaaS和SaaS。未来云计算的规模依旧会保持高速增长,原因有二:1).智慧城市、工业4.0的普及会促进互联网数据中心(IDC)和云服务整体规模的增长。2).由于公有云的部署方便,价格低廉,互联网数据中心(IDC)用户转型公有云的趋势明显。 1.行业背景 1.1.市场背景:…

    2016-02-22
    0
  • 大数据不同的瑞士军刀:对比Spark和MapReduce

    摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…

    2016-02-20
    0
  • 后Hadoop时代的大数据架构

    摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…

    2015-10-10
    0
  • 大数据时代的宠儿:Hadoop简介和实践分享

    这篇文章简单介绍了hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。

    2014-07-01
    0
  • 采用MapReduce与Hadoop进行大数据分析

    随着捕获的数据的数量每年增加,我们的存储也需要增加。很多公司正在认识到“数据为王”这一道理,但是我们如何分析这些数据呢?答案就是“通过Hadoop”。在这篇文章中,也是三部曲中的第一篇,Steven Haines 对Hadoop的架构作了综述,并从一定高度上演示了如何编写MapReduce应用程序。 在数据处理的发展进程中,我们从文件转到关系型数据库,从关系…

    2014-03-08
    0
关注我们
关注我们
分享本页
返回顶部