数据中台
-
R语言突破大数据瓶颈:Shiny的Spark之旅
摘要:我对如何开发和部署”Shiny-SparkR”的应用一直很感兴趣,本文目的将展示如何使用 SparkR 来驱动 Shiny 应用。 什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,…
-
主动或被动:搜索引擎和推荐系统的选择
摘要:从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系区别和相似的地方有哪些本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之间的关系、分享自己的体会。 图1:搜索引擎和推荐系统是获取…
-
大数据不同的瑞士军刀:对比Spark和MapReduce
摘要:Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 Ma…
-
我所经历的大数据平台发展史-上篇 非互联网时代 2
摘要:本章是面向数据领域的一篇专业文章,涉及较前一章节(我所经历的大数据平台发展史-上篇 非互联网时代 1)更为专业术语, 阅读对象适合有一定数据基础的读者。阅读完大约需要12 分钟左右。 【前言】 ”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一…
-
我所经历的大数据平台发展史-上篇 非互联网时代 1
摘要:本文是面向数据领域的一篇专业文章,里面有大量的专有术语,阅读完大约需要15分钟左右。 前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是…
-
最流行的六大数据模型工具
当今的商业决策对基于天的数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。这个过程叫做数据建模。 为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。本文列出的工具都是从…
-
Apache Spark介绍及案例展示
2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。 如今,诸如亚马逊、eBay和雅虎等公司都开始采用Spark技术。许多…
-
详谈京东的商品搜索系统架构设计
京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。虽然只有短短几年的时间,我们的搜索引擎已经经过了多次618店庆和双11的考验,目前已经能够与人们日常使用的如谷歌、百度等全文搜索引擎相比,我们的产品与其有相通之处,比如涵盖亿级别商品的海量数据、支持短时超高并发查询、又有自己的业务特点: 海量的数据,亿级别的…
-
Facebook动态消息算法揭秘:它比你还了解你自己
导读:你登陆社交网站,以为新鲜事中都是自己订阅的内容,但它还包括平台想让你看到的,以及猜测你可能喜爱的内容。平台会猜测用户的心思,用户也往往沦为小白鼠。本文编译自SLATE,揭露了Facebook动态消息的背后的技术原理。为了了解你,科技公司可是很努力的。 每次你打开 Facebook ,这个世界上最具影响力,最有争议也是最被人误解的一套算法机制就开始运行。…
-
Apache Hadoop准实时数据处理的架构模式
评估好哪一种流架构模式最适合你的案例,是成功生产开发的先决条件。 Apache Hadoop 生态系统已成为企业实时地处理和挖掘大数据的首选。 Apache的Kafka, Flume, Spark, Storm, Samza等技术在不断地推进新的可能。人们很容易泛化大规模实时数据案例,但其实他们可以细分为几种架构模式,Apache系统里的不同组件适合于不同的…
-
别老扯什么Hadoop了,你的数据根本不够大
摘要:你有多少大数据和Hadoop的经验 “你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。 接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。 他们给我一个U盘,里面有…
-
从0到1:微信后台系统的演进之路
摘要:2个月的开发时间,微信后台系统经历了从0到1的过程。从小步慢跑到快速成长,经历了平台化到走出国门,微信交出的这份优异答卷,解题思路是怎样的 从无到有 2011.1.21 微信正式发布。这一天距离微信项目启动日约为2个月。就在这2个月里,微信从无到有,大家可能会好奇这期间微信后台做的最重要的事情是什么 我想应该是以下三件事: 1、确定了微信的消息模型 微…
-
浙江移动大数据核心建模能力自我掌控之路
随着大数据时代的到来,当前情况开始发生变化。大数据带来的影响,不仅仅是指技术革命带来的的数据爆炸,更是思维方式的一次革命:“数据使流程更加透明,有助于推动管理的扁平化,提升管理效率”
-
经典大数据架构案例:酷狗音乐的大数据平台重构
导读:本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。 眨眼就是新的一年了,时间过的真快,趁这段时间一直在写总结的机会,也总结下上一年的工作经验,避免重复踩坑。酷…
-
大数据,从打好分布式系统的基础开始
分布式系统是大数据的基础,大数据是分布式系统的最佳实践。本文将介绍分布式系统对数据的基本处理方法,包括数据的分布方式和对数据副本进行控制的协议和算法。这些算法也是大数据各类组件技术的基础。 分布式系统定义 分布式系统是若干独立计算机的集合,但这些计算机系统集合从用户的使用角度来说,则是一个单一的应用系统。组建一个分布式系统具备五个关键目标: 资源的可访问性:…