Uber的大数据之道:Spark已经是“必备神器了”

这一篇来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是“必备神器了”。

摘要:下面这一篇就来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是“必备神器了”。

Uber的大数据之道:Spark已经是“必备神器了”

旧架构下,Uber依赖于Kafka的数据流将大量的日志数据传输到AWS的S3上,然后使用EMR来处理这些数据。然后再从EMR导入到可以被内部用户以及各个城市使用的关系型数据库中。

现在基于Spark的流式IO架构,用来取代之前的Python ETL 架构。新系统从关系型数据仓库表模型将原始数据摄取做了必要的解耦。

取而代之的是在一个关系模型中从多个分布式数据中心聚合行程数据,新的架构使用Kafka从本地数据中心来提供实时数据日志,加载他们到中心化的Hadoop集群中。接着系统用Spark SQL 将非结构化的JSON转化为更加结构化的可以使用Hive来做SQL分析的Parquet文件。

通过利用Spark和Spark Streaming 将系统变得长期稳定运行的节点上。运行Spark任务、Hive、机器学习以及所有组件,将Spark的潜能彻底释放出来。

下面是PPT

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

Uber的大数据之道:Spark已经是“必备神器了”

 

本文为专栏文章,来自:董飞,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/17531.html 。

(0)
董飞的头像董飞专栏
上一篇 2016-05-22 22:43
下一篇 2016-05-25 23:57

相关文章

关注我们
关注我们
分享本页
返回顶部