摘要:下面这一篇就来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是“必备神器了”。
旧架构下,Uber依赖于Kafka的数据流将大量的日志数据传输到AWS的S3上,然后使用EMR来处理这些数据。然后再从EMR导入到可以被内部用户以及各个城市使用的关系型数据库中。
现在基于Spark的流式IO架构,用来取代之前的Python ETL 架构。新系统从关系型数据仓库表模型将原始数据摄取做了必要的解耦。
取而代之的是在一个关系模型中从多个分布式数据中心聚合行程数据,新的架构使用Kafka从本地数据中心来提供实时数据日志,加载他们到中心化的Hadoop集群中。接着系统用Spark SQL 将非结构化的JSON转化为更加结构化的可以使用Hive来做SQL分析的Parquet文件。
通过利用Spark和Spark Streaming 将系统变得长期稳定运行的节点上。运行Spark任务、Hive、机器学习以及所有组件,将Spark的潜能彻底释放出来。
下面是PPT
本文为专栏文章,来自:董飞,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/17531.html 。