数据中台
-
从日志统计到大数据分析(三)——战国的混乱
随着需求的增长,计算资源也随之增长,每个季度有20%-30%。经过一年半,机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时,为了保证新产品部的核心统计能在员工上班之前跑出来,提了100多台,那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长,经理都在担心部门是否会批。后来,再提需求都是以千台计,我的经理…
-
从日志统计到大数据分析(二)——盘古开天地
设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学,整理了好几十条,并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难,难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过需求处理,也不知道那几百个脚本里面都写的什么玩意儿。我说咱俩…
-
从日志统计到大数据分析(一)——洪荒年代
我2007年浙大研究生毕业后加入百度,先在百度知道做了一年的后端研发,2008年底开始负责日志统计的一个小团队,开发了一套基于Hadoop的日志统计平台,之后一直围绕数据这一方向,覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业,做一款针对互联网创业公司的数据分析产品Sensors Analytics,有兴趣的可以到sensor…
-
基于Spark的异构分布式深度学习平台
导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。 深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别…
-
大型网站架构系列:电商网站架构案例
摘要:大型网站架构是一个系列文档,欢迎大家关注。本次分享主题:电商网站架构案例。从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型。除具备功能需求外,还具备一定的高性能,高可用,可伸缩,可扩展等非功能质量需求(架构目标)。 根据实际需要,进行改造,扩展,支持千万PV,是没问题的。 本次分享大纲 电商案例的原因 电商网站需求 网站初级架…
-
Hadoop数据操作系统YARN全解析
摘要:Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享? Hadoop YARN的生态系统 为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许…
-
Airbnb基础数据架构
摘要:这一篇关于Airbnb基础数据架构。云计算尤其亚马逊的云服务(AWS)提供弹性计算能力,无需购买昂贵服务器甚至机房,通过虚拟化主机,还提供丰富配套组件,节约运维成本,方便扩展,成为很多创业公司的首选。这里Airbnb 工程师James Mayfield以AWS作为基础搭建数据架构中走过的坑和经验分享,由于笔者也刚好做过,难度2星,供做数据的朋友学习。 …
-
如何打造高性能大数据分析平台
摘要:本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍)。 大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提供关键数据,那么这样的大数据分析系统一文不…
-
浅谈12306核心模型设计思路和架构设计
摘要:元宵节结束,年就真的过完了。挥别故里,回到打拼的城市,理性思维是否也跟着工作状态一起回归了呢?每一年的春运都是对 12306 的一次大考,抛去盲从和偏见,让我们用工程师的思维重新打量、从业务分析的角度去探讨,12306 的核心模型设计思路和架构设计到底复杂在哪里? 为什么我要研究这个问题? 春节期间,无意中看到一篇文章,文章中讲到12306的业务复杂度…
-
谈谈MATLAB大数据处理
摘要: 今天多数的大数据方案都是依托Hadoop环境来做结构化和非结构化数据处理,如何把自己的Hadoop算法快速部署到实际的生产环境当中去,对很多企业的大数据部署也提出了挑战。CSDN专访MathWorks中国资深技术专家陈建平,分享大数据解决方案。 近年来,随着大数据在Google、Facebook等企业的成功应用,很多传统企业和初创公司都转向应用大数据…
-
实时分析社交媒体数据
摘要:本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据,通过创建了一个不停运转的流程序,来演示如何实时获取 Twitter 数据,根据文本和位置来收集推文,并使用了 K 均值算法。 这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。 您想知道人们在发微博谈论世界的哪些不同地方吗,是在谈论各大洲还是在…
-
50PB海量数据排序,谷歌是如何做的?
摘要:用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说很有借鉴意义。 为什么谷歌工程师喜欢测试排序?因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。 最初的MapReduce论文就报…
-
一个母婴电子商务网站的大数据平台及机器学习实践
母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后,随着宝宝的落地,就会准备一些纸尿裤和奶粉,而且随着宝宝的长大,纸尿裤和奶粉的类型也会变化。第三个是移动化,一般有90%的…
-
3分钟了解个性化推荐算法
摘要:如果去商场里买东西,我并不愿意听导购小姐讲的话,但是电商网站上的推荐,我还真的愿意看一看。【猜你喜欢】,好,那你就猜猜吧。 推荐这种体验除了电商网站,还有新闻推荐、电台音乐推荐、搜索相关内容及广告推荐,基于数据的个性化推荐也越来越普遍了。今天就针对场景来说说这些不同的个性化推荐算法吧。 说个性化之前,先提一下非个性化。 非个性化的推荐也是很常见的,毕竟…
-
Hadoop之父Doug Cutting眼中大数据技术的未来
摘要:1985年毕业于美国斯坦福大学的Doug Cutting并不是一开始就决心投身IT行业的。但又如何成为了Hadoop之父?以及这10年中,Hadoop的发展和未来期待又是如何的? 上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上。今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝。最近…