spark
-
Apache Hadoop准实时数据处理的架构模式
评估好哪一种流架构模式最适合你的案例,是成功生产开发的先决条件。 Apache Hadoop 生态系统已成为企业实时地处理和挖掘大数据的首选。 Apache的Kafka, Flume, Spark, Storm, Samza等技术在不断地推进新的可能。人们很容易泛化大规模实时数据案例,但其实他们可以细分为几种架构模式,Apache系统里的不同组件适合于不同的…
-
为什么越来越多的公司在使用Spark Streaming
Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Streaming不断增长的用户群中,Uber、Netflix和Pinterest等家喻户晓的公司赫然在列,…
-
说说大数据框架Hadoop和Spark的异同
摘要:谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: …
-
写给Python程序员的Scala入门教程
Spark对Python的支持还是挺好的,但毕竟它还是使用Scala开发的,且现有的API并没有100%覆盖Python。
-
小团队如何撬动大数据?当当推荐团队的机器学习实践
当当个性化推荐开发经理张相於深度分享当当推荐团队的机器学习实践经验。本次分享更侧重“面向过程”——在构建系统时的一些实践,一些坑,以及如何从坑里爬出来,以及“小团队”。
-
后Hadoop时代的大数据架构
摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…
-
如何用形象的比喻描述大数据的技术生态?
Hadoop、Hive、Spark之间是什么关系?
-
数据挖掘化功大法(22)——spark入门
Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法…
-
继Cloudera之后,MapR宣布对Spark的完全支持
Spark,发源于美国加州大学伯克利分校AMPLab的集群计算平台,当下已成为Apache基金会的顶级项目。而在不久前,知名Hadoop解决方案供应商Cloudera已宣布了其发行版对Spark的支持。毫无疑问,Spark已成为流行的大数据计算框架之一,而据Gigaom Derrick Harris的一则消息,MapR近日也宣布了对Spark的支持,同时这个…