大数据技术
-
从大数据的风水图,来看到底大数据是怎么回事
摘要:本文中的Big Data Landscape图笔者随手分享在LinkedIn上,不晓得引起大量转发和评论,截止本周,得到6700个like,3800次share,400多条comment,笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck,提下这一家VC,主要投资于早…
-
Hadoop之父Doug Cutting眼中大数据技术的未来
摘要:1985年毕业于美国斯坦福大学的Doug Cutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父?以及这10年中,Hadoop的发展和未来期待又是如何的? 上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上。今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝。最近…
-
R语言突破大数据瓶颈:Shiny的Spark之旅
摘要:我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣,本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。 什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,…
-
大数据不同的瑞士军刀:对比Spark和MapReduce
摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…
-
Apache Spark介绍及案例展示
2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。 如今,诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…
-
从0到1:微信后台系统的演进之路
摘要:2个月的开发时间,微信后台系统经历了从0到1的过程。从小步慢跑到快速成长,经历了平台化到走出国门,微信交出的这份优异答卷,解题思路是怎样的 从无到有 2011.1.21 微信正式发布。这一天距离微信项目启动日约为2个月。就在这2个月里,微信从无到有,大家可能会好奇这期间微信后台做的最重要的事情是什么 我想应该是以下三件事: 1、确定了微信的消息模型 微…
-
大数据,从打好分布式系统的基础开始
分布式系统是大数据的基础,大数据是分布式系统的最佳实践。本文将介绍分布式系统对数据的基本处理方法,包括数据的分布方式和对数据副本进行控制的协议和算法。这些算法也是大数据各类组件技术的基础。 分布式系统定义 分布式系统是若干独立计算机的集合,但这些计算机系统集合从用户的使用角度来说,则是一个单一的应用系统。组建一个分布式系统具备五个关键目标: 资源的可访问性:…
-
大数据分析技术生态圈一览
摘要:大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。 这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。 Platfora 这是一款大数据发现和分析平台。 Qlikview 这是一款引导分析平台。 Sisense 这是…
-
从内部机理的角度,详细分析Hadoop的核心架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内…
-
滴滴CTO:详解大数据战略与三次生死战役的架构变迁
2012年成立的滴滴打车,仅用了三年时间就书写了:覆盖300个城市,用户数从2200万增到1.5亿,月活跃用户增长了600多倍(2014年平安夜当天,全国用滴滴打车出行人数超过了3000万人),打车成功率高于90%……这些永远会被铭记在移动互联网历史中的神奇记录。而不为人知的是,支撑滴滴打车如此庞大用户数量的架构,以及那些曾无数次不眠不休应对挑战的技术伙伴们…
-
傅志华:大数据如何应用于市场与用户研究?
传统的用户研究包括品牌研究、客户满意度研究、商圈研究、市场细分、渠道研究、产品定价研究以及产品测试,这些研究大多数用市场调研的方法来实现。市场调研由于调研方法带来的诸多问题,导致结果的代表性、准确性以及研究的效率都存在不同程度的挑战。我们相信,随着大数据的发展,大数据将对市场与用户研究方法将带来革命性的变化。本文将介绍大数据目前在市场与用户研究方面的应用与探…
-
大数据技术:OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。 OLTP的特点一般有: 1.实时性要求高; 2.数据量不是很大; 3.交易一般是确定的,所以OLTP是对确定性的数据进行存取;(比如存取款都有一个特定的金额) 4.并发…
-
如何用形象的比喻描述大数据的技术生态?
Hadoop、Hive、Spark之间是什么关系?
-
大数据技术服务Jut获得2000万美元A轮投资
Jut尚未上线,就已获得2000万美元A轮投资,由Accel Partners、 Lightspeed Venture Partners 、Wing VC联合投资。
-
Facebook大数据技术架构的演进路线
Facebook一直是大数据技术最积极的应用者,因为它拥有的数据量极其巨大,一份资料显示2011年它拥有的压缩数据已经有25PB,未压缩数据150PB,每天产生的未压缩的新数据有400TB。