hadoop

  • 如何让Hadoop结合R语言做大数据分析?

    【编者按】R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。作者从一个程序员的角度对R语言和Hadoop做了一…

    2015-12-27
    0
  • 说说大数据框架Hadoop和Spark的异同

    摘要:谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: …

    2015-12-16
    0
  • 2015Bossie评选:最佳开源大数据工具

    导读:Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。 InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,…

    2015-10-24
    0
  • 小团队如何撬动大数据?当当推荐团队的机器学习实践

    当当个性化推荐开发经理张相於深度分享当当推荐团队的机器学习实践经验。本次分享更侧重“面向过程”——在构建系统时的一些实践,一些坑,以及如何从坑里爬出来,以及“小团队”。

    2015-10-16
    0
  • 后Hadoop时代的大数据架构

    摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…

    2015-10-10
    0
  • 如何用形象的比喻描述大数据的技术生态?

    Hadoop、Hive、Spark之间是什么关系?

    2015-02-07
    0
  • 数据挖掘化功大法(20)——网站日志挖掘

    收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接…

    2015-01-20
    0
  • 开源大数据查询分析引擎现状

    按:这些基础性的研究和测试对比分析,对于我们的BDSA技术路线选定大有帮助。 引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtab…

    2014-10-28
    0
  • 大数据时代的宠儿:Hadoop简介和实践分享

    这篇文章简单介绍了hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。

    2014-07-01
    0
  • 大数据领域的顶级开源工具大集合

    如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。本文介绍了一些大数据方面的顶级开源工具,分为四个领域:数据存储,开发平台,开发工具和集成,分析和报告工具。

    2014-04-15
    0
  • 采用MapReduce与Hadoop进行大数据分析

    随着捕获的数据的数量每年增加,我们的存储也需要增加。很多公司正在认识到“数据为王”这一道理,但是我们如何分析这些数据呢?答案就是“通过Hadoop”。在这篇文章中,也是三部曲中的第一篇,Steven Haines 对Hadoop的架构作了综述,并从一定高度上演示了如何编写MapReduce应用程序。 在数据处理的发展进程中,我们从文件转到关系型数据库,从关系…

    2014-03-08
    0
  • 技术:Hadoop中IPC的源码分析

    最近开始看Hadoop的一些源码,展开hadoop的源码包,各个组件分得比较清楚,于是开始看一下IPC的一些源码。(版本是1.0.4中的ipc包) IPC模块,也就是进程间通信模块,如果是在不同的机器上,那就可以理解为RPC了,也就是远程调用。事实上,hadoop中的IPC也就是基于RPC实现的。 使用sloccount统计一下ipc包中代码的行数,一共是2…

    2014-03-02
    0
  • 关于Hadoop与大数据的12个事实

    事实1:Hadoop是由多个产品组成的。 人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。 Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。” 一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基…

    2014-02-28
    0
  • 其实Hadoop不是解决大数据问题的唯一方案

    Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。

    2013-10-28
    0
  • 分析之上,大数据项目部署的五大愿景

    如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。 好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和…

    2013-10-14
    0
关注我们
关注我们
分享本页
返回顶部