数据中台
-
技术 | Hadoop 面试,有它就够了
本文介绍了google推广的一个编程模型MapReduce,以及下一代mapreduce框架,简称MRv2。从各个方面对比了传统的MR框架和新一代的区别,以及它们的优缺点。一起来看看吧~
-
Facebook如何实现80万人同时在线观看直播
现在只有极少数公司知道如何提供世界跨越式分布服务,这些公司的数量甚至比当今拥有核武器的国家还少。Facebook就是这少数中的一个,它的新视频直播流媒体产品Facebook Live就是跨越式分布服务的代表。
-
个性化推荐技术|产品经理和产品运营的必修课
随着移动互联网的兴起,用户的很多行为逐渐从PC端转向移动端。人们花在手机上的时间越来越多。
-
数据平台维度模型设计十个技巧
这是一篇讲述维度数据模型设计的文章,偏向于数据平台而非数据分析,请读者根据自己的兴趣爱好阅读。
-
怎样选择数据平台的建设方案
公司要做数据分析,首先要考虑数据的准备,也就是数据平台的建设,最近接触了几个客户都处于这一环节,而且其中一个在方案选型过程中,也是充满了纠结,而我也并没有在开始阶段给出合理全面的建议。
-
Spark交通数据分析案例:大型活动大规模人群的检测与疏散
以一个数据分析者的角度来与大家分享如何使用spark进行大数据分析
-
用R解析Mahout用户推荐协同过滤算法(UserCF)
用R全面解析Mahout的基于用户推荐协同过滤算法(UserCF),改进的采用欧氏距离,并用R语言实现,与Mahout的结果进行对比。
-
三款大数据工具比拼,谁才是真正的王者
Apache Pig,Apache Hive和SQL是当今主流的大数据工具。它们各有优势,下面我们就先来简单介绍Apache Pig、Apache Hive和SQL。
-
中文分词技术(中文分词原理)
为什么要进行中文分词?
-
实时大数据流上的频率统计:Lossy Counting Algorithm
在大数据处理中,或是面试中,经常会遇到这样的问题: 比如,一个社交网站上有上亿的用户主页,而且每天有上十亿的访问量,想实时知道最常被访问的主页有哪些,然后给出一个排名。常用的做法是给每个主页一个计数器,这样需要很大的内存(往往装不下)来保存这些计数器,但极大多数的计数器其实只有一次两次,这是一个非常大的浪费,而且现实资源不允许这么做。 再比如,一个网站有海量…
-
解构京东智慧物流:智能化设备+大数据技术
无人机送货技术是京东物流近期的一项重点工作,但无人机只是京东探索智慧物流体系的一部分工作。日前,京东集团运营研发部总监、京东物流系统(内部代号“青龙”)研发负责人李鹏涛向CSDN记者介绍了京东物流系统目前的研发进展和未来的技术路线。 李鹏涛表示,京东智慧物流包括两个方面,一是基于大数据预测分析技术实现智能化的调度、决策,二是采用一些更加自动化、智能化的设备提…
-
Spark2.0:真实力还是纯套路?
在Databricks的Spark峰会上,支持结构化处理和SQL 2003的Spark2.0 呈现在众人面前,此外,R-to-Spark接口也在该峰会上崭露头角。 近日在旧金山举行的Spark峰会上,Spark发起人Databricks 展示了这款通用分析引擎Spark的2.0版本,并介绍了该版本的详细更新细节。包括IBM、Microsoft在内的一众公司都…
-
Spark VS Hadoop 两大大数据分析系统深度解读
大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统?
-
大数据系统数据采集产品的架构分析
本文重点介绍了大数据平台系统的数据采集,数据存储,数据处理,以及数据展现的架构。
-
如何使用开源软件快速搭建数据分析平台?
本文介绍了如何使用开源软件迅速的搭建一个数据分析平台,包含数据导入,变形,分析,预测,可视化。