Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。

摘要:Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。为了云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。

为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。

目录:

Hadoop

  •    – 它是一个针对Hadoop数据处理应用程序的新分布式执行框架,该框架基于YARN;
  •    – SpatialHadoop是Apache Hadoop的MapReduce扩展,专门用于处理空间数据;
  •    –用于Hadoop框架的大数据空间分析;
  •    – Elasticsearch与Hadoop深度集成,可用于实时搜索和分析,支持Map/Reduce、 Cascading、Apache Hive和Apache Pig;
  •    – Python模块,使Hadoop程序的编写和运行更为容易;
  •    – 用Cython写的Python MapReduce库;
  •    – mrjob是一个Python2.5+程序包,可以帮助编写和运行Hadoop工作流;
  •    -为Hadoop提供Python API的程序包;
  •    -Hadoop分布式文件系统(HDFS)的交互可视化;
  •    – Hadoop的日志聚合器和仪表板;
  •   
  •    – Genie提供REST-ful API,以便运行Hadoop、Hive和Pig jobs,还管理多个Hadoop资源,并在它们之间进行作业提交;
  •    –最初来自eBay公司的开源分布式分析引擎,能提供Hadoop之上的SQL查询接口及多维分析(OLAP),以支持超大规模数据集;
  •    -基于Go的工具包,用于在Hadoop上的ETL和特征提取;
  •    -分布式内存平台。

YARN

  •    – Apache Slider是Apache软件基金会的孵化项目,旨在能够轻松地实现现有应用程序到YARN集群的部署;
  •    – Apache Twill是Apache Hadoop® YARN的抽象层,降低了开发分布式应用程序的复杂度,让开发者更专注于自己的应用逻辑;
  •    –在YARN上运行MPICH2。

NoSQL

下一代数据库大多定位于以下几点:非关系型、分布式、开放源码和横向扩展。

  •    – Apache HBase;
  •    – Hbase的SQL驱动,支持辅助索引;
  •    -一个开发者友好型的Python库,用于Apache HBase的交互;
  •    –用于监测和维护HBase 集群的工具;
  •    –用于HBase的线性可扩展多行多表交易库;
  •    – Hbase的辅助索引;
  •    – Apache Accumulo可排序分布式键/值存储,是一个强大的、可扩展高性能数据存储和检索系统;
  •    -可扩展时间序列数据库;
  •   

Hadoop中的SQL

  •   
  •    – Hbase的SQL驱动,支持辅助索引;
  •    – Hadoop上的并行数据库;
  •    -用于级联的SQL接口(MR / TEZ工作发生器);
  •   
  •    –用于大数据的分布式SQL查询引擎,该查询引擎由Facebook开发,现已开源;
  •    – Apache Hadoop的数据仓库系统;
  •   

数据管理

  •    -动态数据管理框架;
  •    -用于元数据标记及类群捕获,支持复杂的商业数据分类。 

工作流,生命周期及管理

  •    – Apache Oozie;
  •   
  •    -数据管理与处理平台;
  •    -数据流系统;
  •    – AirFlow是以编程方式建立、调度和监控数据管道的平台;
  •    – Python包,用于构建批处理作业的复杂管道。

数据提取及整合

  •    – Apache Flume;
  •    – Netflix分布式数据管道;
  •    – Apache Sqoop;
  •    – Apache Kafka;
  •    – Hadoop的通用数据提取框架;

DSL

  •    – Apache Pig
  •    – Hadoop中用于处理大规模数据的库的集合;
  •    –基于Apache Pig的机器学习和自然语言处理;
  •    -用于开源大数据安全性分析;
  •    – Mozilla的实用工具库,用于Hadoop、HBase、Pig等等;
  •    -Hadoop中用于大型定序数据集的简单可扩展脚本(bioinfomation除外);
  •    – Pig工作流程可视化工具;;
  •    – PigPen 是Clojure或分布式Clojure的Map-reduce,能够编译Apache Pig,但是不需要过多了解Pig也可以使用PigPen。

库和工具

  •    –一组库、工具、示例和文档;
  •    – Apache Hadoop YARN的本地Go客户端;
  •    – 用Apache Hadoop分析数据的Web界面;
  •    -基于Web的笔记,可进行交互式数据分析
  •    – Jumbune是为分析Hadoop集群和MapReduce作业而构建的开源产品;
  •   
  •    – Apache Avro是一个数据序列化系统;
  •    – Twitter中LZO、缓冲协议相关的Hadoop、Pig、Hive和HBase代码的集合;
  •   
  •   
  •    -Eclipse中用于编辑Apache Oozie工作流的图形编辑器。

实时数据处理

  •   
  •   
  •   
  •    – Apache Flink是高效的分布式通用数据处理的平台,用于精准的流处理。

分布式计算和编程

  •   

     

     

    •    – Apache Spark中程序包的community(社区)索引;
    •    – Apache Spark的社区;
  •   
  •    – Cascading是在Hadoop上构建数据应用的成熟的应用开发平台;
  •    – Apache Flink是高效的分布式通用数据处理的平台;
  •    -企业级的统一流处理和批处理引擎。 

包装,配置与监测

  •    – 用于Apache Hadoop生态系统的包装和测试;
  •    – Apache Ambari
  •   
  •    -一个大数据集群管理工具,用于创建和管理不同的技术集群;
  •    – Apache Zookeeper
  •    – 用于ZooKeeper的客户端简化包装和丰富ZooKeeper框架; 
  •    – Hadoop生态系统生成器;
  •    – Hadoop的部署系统;
  •    -一个用于开源MapReduce分析,MapReduce流程调试,HDFS数据质量校验和Hadoop集群监测的工具;
  •    – Inviso是一个轻量级的工具,它提供搜索Hadoop作业,可视化性能,查看集群利用率的能力。

搜索

  •   
  •   
  •    -开源、分布式、实时、半结构化的数据库;
  •    – Apache Solr的Kibana端口。

搜索引擎框架

  •    –Apache Nutch是一个高度可扩展的,可伸缩的开源网络爬虫软件项目。

安全性

  •    – Ranger是一个框架,能够跨Hadoop平台启用、监控和全面管理数据安全性;
  •    – Hadoop的一个授权模块;
  •    –用于与Hadoop集群交互的REST API网关。

基准

  •   
  •   
  •   
  •   
  •    –一个测试平台,用于进行任何规模数据的Apache Hive实验;
  •    -雅虎云服务基准(YCSB)是一个开源规范和程序套件,用于评估计算机程序的检索和维护功能;它常被用于比较NoSQL数据库管理系统的相对性能。

机器学习和大数据分析

  •   
  •    –基于Spark、Kafka的Lambda架构,用于实时大规模的机器学习;
  •    – MLlib是Apache Spark的可扩展机器学习库;
  •    – R是用于统计计算和图形的自由软件环境;
  •    -包括RHDFS、RHBase、RMR2和plyrmr;
  •    –用于从R中开始Hive查询;
  •   

其它

  •   Hive Plugins

     

     

    •   UDF

       

       

      •   
      •   
      •   
      •   
      •   
      •    – Twitter
      •   
      •   
      •   
      •    (PostgreSQL translate())
      •   
      •    (Machine Learning UDF/UDAF/UDTF)
      •    (GeoIP UDF)
      •   
    •   Storage Handler

       

       

      •   
      •   
      •   
      •   
      •   
      •   
      •   
      •   
      •   
    •   SerDe
    •   
    •   
    •   
    •   
    •   
    •    – JSON
    •   
    •   Libraries and tools

       

       

      •   
      •   
      •   
      •   
      •   
      •    – WebUI for query engines: Hive and Presto
      •    – Clojure library for interacting with Hive via Thrift
      •   
      •   
      •    (Perl – HiveServer2)
      •    – Python interface to Hive and Presto
      •   
      •   
      •    – An Open Source unit test framework for hadoop hive queries based on JUnit4
      •    – A super simple utility for testing Apache Hive scripts locally for non-Java developers.
      •   – Unit test framework for hive and hive-service
  •   Flume Plugins

     

     

    •   
    •   
    •   
    •   
    •   
    •    – Custom sinks: Cassandra, MongoDB, Stratio Streaming and JDBC
    •   
    •   
    •   

资源

还有各种书籍、网站和文章等相关的资源,列表如下:

网站

有用的网站和文章

  •   (译:Hadoop周刊)
  •   (译:Hadoop生态系统表)
  •   (译:Hadoop1.x vs 2
  •   (Apache Hadoop YARN:另一种资源谈判)
  •   (译:Apache Hadoop YARN简介)
  •   (译:Apache Hadoop YARN——背景和概述)
  •   (译:Apache Hadoop YARN——概念与应用)
  •   (译:Apache Hadoop YARN – ResourceManager)
  •   (译:Apache Hadoop YARN – NodeManager)
  •   (译:迁移到YARN上的MapReduce 2(针对用户))
  •    (译:迁移到YARN上的MapReduce 2(针对运营商))
  •   (译:Hadoop和大数据:Salesforce.com中的用例)
  •   (译:你想了解却不敢询问的Hadoop知识:大象的家谱)
  •   (译:什么是Bigtop?为什么要关注Bigtop?)
  •   (译:Hadoop的分布和商业支持)
  •   (译:小型Hadoop集群的Ganglia配置和检修)
  •    – Open Source Hadoop Book(译:Hadoop启示——开源Hadoop书)
  •   (译:NoSQL数据库)
  •   (译:Apache Hive的10个最佳实践)
  •   
  •   (译:AWS大数据博客)
  •   

演示

  •    – Slide decks from Hadoop Summit(译:Hadoop的峰会展示)
  •   
  •   (译:Apache Hadoop Yarn更新实例)
  •   (译:Apache Hadoop的理论和实践)
  •   (译:HadoopLinkedIn的操作)
  •   (译:HadoopLinkedIn的性能)
  •   (译:基于Docker的Hadoop配置)

书籍

  •   (译:Hadoop权威指南)
  •   (译:Hadoop运营)
  •   (译:Apache Hadoop Yarn)
  •   (译:HBase权威指南)
  •   (译:Pig程序设计)
  •   (译:Hive程序设计)
  •   (译:Hadoop实践,第二版)
  •   (译:Hadoop实战,第二版)

Hadoop&大数据事件

以上为Hadoop学习资源集合的全部内容,更多精彩敬请期待。

编译自:https://github.com/youngwookim/awesome-hadoop

译者:刘崇鑫   校对:王殿进

来源:云栖社区

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2016-05-22 10:45
下一篇 2016-05-25

相关文章

  • B2B企业必知的3个线索扩张战略

    市场与销售之间的信息孤岛、客户的日益多元与多变、销售过程中的主观性,都有可能丢失线索,或延长本就长得可怕的销售周期。2018年,B2B企业若想提高线索的质量与数量,更顺利地走完整个漏斗,需要知道以下三个战略。

    2018-03-26
    0
  • Hadoop家族学习路线图

    前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准…

    2016-08-09
    0
  • 马云谈第三次技术革命:走向DT时代是真正大释放

    10月14日 北京消息:2万名开发者今天齐聚在杭州云栖小镇,参加阿里云2015云栖大会。阿里云及其合作伙伴在大会上发布了一系列新的云计算技术,200多家云上企业展示了量子计算、人工智能等前沿技术。马云在会上演讲,他认为,“从IT时代走向DT时代的第三次技术革命是真正的大释放。” “第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使…

    2015-10-14
    0
  • 「猫脸识别」距离真正的人工智能还有多远?

    摘要:「人工智能」已经成为当下最为火热的词汇,它不仅涵盖了无人驾驶,语音助手,甚至图像识别也是它下面的分支。目前人们已经成功地将它调教成能够辨识猫咪的智慧体,但「猫脸识别」只是人工智能成长中的一小步,要想完全成为人类想象中的样子,它或许还要先掌握「无监督学习」这个重要技能。 在 2012 年之时,全世界都知道了 Google 在它的秘密实验室 X lab 里…

    2016-02-21
    0
  • 车品觉分享:那些年,我在阿里决战大数据

    回顾我在阿里的6年,从经历来说,是先负责支付宝,继而负责淘宝,最终负责整个阿里集团的数据工作。实际上,这个过程同样也是我对数据应用的一个历程:第一阶段用数据,第二阶段养数据,第三阶段从看数据到用数据。

    2016-06-04
    0
关注我们
关注我们
分享本页
返回顶部