数据中台
-
如何用形象的比喻描述大数据的技术生态?
Hadoop、Hive、Spark之间是什么关系?
-
大数据公司Splunk和Cloudera的核心竞争力在哪里?
像硅谷这种初创公司Splunk和Cloudera,他们的核心竞争力究竟在哪里?
-
Tencent Analytics腾讯分析系统架构解析
摘要:TA是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界认可。本文将从实时数据处理、数据存储等多个方面带你深入探寻TA的系统架构及实现原理。 TA(Tencent Analytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频…
-
开源大数据查询分析引擎现状
按:这些基础性的研究和测试对比分析,对于我们的BDSA技术路线选定大有帮助。 引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtab…
-
大数据时代的宠儿:Hadoop简介和实践分享
这篇文章简单介绍了hadoop相关的技术生态圈,同时共享一份前一阵编写的实践教程,需要者自取。
-
把小样本经验用在海量样本筛选上,才是大数据的价值
从小样本到大数据:概念与误区 “大数据”这个词早期是IBM和EMC鼓吹的一种商业概念,自诞生之日就有概念包装的商业基因。明白这一道理就不会过分纠结“到底什么是大数据”,“多大数据算大数据”之类的问题。这一概念包含了我们在面对海量数据环境下的哲学迷思、技术困境、解决方案和由此引发的商业机会。 探讨大数据问题前我们先回顾另一个数据界的经典问题——小样本问题。小样…
-
数据管理平台DMP细致研究——BlueKai
产品简介 提供的服务是各种互联网的流量数据, 它提供以下四项数据服务: 1.数据管理平台(DMP):用来帮助用户组织并分析数据,功能包括: (1)收集整合线上线下的数据(用户的自有数据) (2)对数据进行划分(可以针对不同的营销活动,如展示、搜索、视频、社交广告等) (3)将数据用于投放(可投放到不同的广告网络和交换平台) (4)衡量投放效果(可视化),不断…
-
采用MapReduce与Hadoop进行大数据分析
随着捕获的数据的数量每年增加,我们的存储也需要增加。很多公司正在认识到“数据为王”这一道理,但是我们如何分析这些数据呢?答案就是“通过Hadoop”。在这篇文章中,也是三部曲中的第一篇,Steven Haines 对Hadoop的架构作了综述,并从一定高度上演示了如何编写MapReduce应用程序。 在数据处理的发展进程中,我们从文件转到关系型数据库,从关系…
-
技术:Hadoop中IPC的源码分析
最近开始看Hadoop的一些源码,展开hadoop的源码包,各个组件分得比较清楚,于是开始看一下IPC的一些源码。(版本是1.0.4中的ipc包) IPC模块,也就是进程间通信模块,如果是在不同的机器上,那就可以理解为RPC了,也就是远程调用。事实上,hadoop中的IPC也就是基于RPC实现的。 使用sloccount统计一下ipc包中代码的行数,一共是2…
-
关于Hadoop与大数据的12个事实
事实1:Hadoop是由多个产品组成的。 人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。 Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。” 一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基…
-
Facebook大数据技术架构的演进路线
Facebook一直是大数据技术最积极的应用者,因为它拥有的数据量极其巨大,一份资料显示2011年它拥有的压缩数据已经有25PB,未压缩数据150PB,每天产生的未压缩的新数据有400TB。
-
探访美式微博Twitter的大数据技术架构
Twitter的大数据架构也是分为基于Hadoop的批处理和基于Storm的实时流计算等主要类型,主要基于开源项目中进行开发和发展。
-
其实Hadoop不是解决大数据问题的唯一方案
Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。
-
解读大数据的四个价值:记录→监督→纠偏→预测
大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式,以及主受体统一和大微观的特征,这些特征决定了大数据的价值发挥。
-
Google大数据技术架构探秘
Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范。