数据中台

从日志统计到大数据分析（四）——秦天下

转眼到了2011年初，我感觉团队放在网页相关性部门，不利于发展。我的想法是要把团队面向全公司服务，甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人，在他完成了Hadoop在…

桑文锋

2016-03-08

00

数据中台

从日志统计到大数据分析（三）——战国的混乱

随着需求的增长，计算资源也随之增长，每个季度有20%-30%。经过一年半，机器数从160台增长到了5000台。记得2009年产品发布后第一次提机器预算时，为了保证新产品部的核心统计能在员工上班之前跑出来，提了100多台，那个时候一个像百度知道这样的业务线也只是申请添加十几台机器满足正常的业务增长，经…

桑文锋

2016-03-08

00

数据中台

从日志统计到大数据分析（二）——盘古开天地

设计一套日志统计平台的需求来源主要是Nslog的RD和OP同学，整理了好几十条，并出了一个基本的方案。我当时觉得实现一个提升运维管理的系统不难，难的是怎么是好用的我很关心怎么提升需求处理的效率问题。这个时候其中一个人又被调到了一个基础库团队。也就是做这件事的就只剩我和校招新人了。而我们两个都还没做过…

桑文锋

2016-03-07

00

数据中台

从日志统计到大数据分析（一）——洪荒年代

我2007年浙大研究生毕业后加入百度，先在百度知道做了一年的后端研发，2008年底开始负责日志统计的一个小团队，开发了一套基于Hadoop的日志统计平台，之后一直围绕数据这一方向，覆盖数据的采集、传输、建模存储、查询分析、数据可视化。今年4月份从百度离职创业，做一款针对互联网创业公司的数据分析产品S…

桑文锋

2016-03-07

00

数据中台

基于Spark的异构分布式深度学习平台

导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构资源做分配，支持Multi-Tenancy，让资源的使用更有效。深…

张乐

2016-03-06

00

数据中台

大型网站架构系列：电商网站架构案例

摘要：大型网站架构是一个系列文档，欢迎大家关注。本次分享主题：电商网站架构案例。从电商网站的需求，到单机架构，逐步演变为常用的，可供参考的分布式架构的原型。除具备功能需求外，还具备一定的高性能，高可用，可伸缩，可扩展等非功能质量需求（架构目标）。根据实际需要，进行改造，扩展，支持千万PV，是没问题…

张乐

2016-03-02

00

数据中台

Hadoop数据操作系统YARN全解析

摘要：Hadoop 2.0引入YARN，大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的？Hulu又有哪些成功实践可以分享？ Hadoop YARN的生态系统为了能够对集群中的资源进行统一管理和调度，Hadoop 2.0引入了数据操作系统YARN。YARN的引入，大大提高…

张乐

2016-02-28

00

数据中台

Airbnb基础数据架构

摘要：这一篇关于Airbnb基础数据架构。云计算尤其亚马逊的云服务（AWS）提供弹性计算能力，无需购买昂贵服务器甚至机房，通过虚拟化主机，还提供丰富配套组件，节约运维成本，方便扩展，成为很多创业公司的首选。这里Airbnb 工程师James Mayfield以AWS作为基础搭建数据架构中走过的坑和经…

董飞

2016-02-26

00

数据中台

如何打造高性能大数据分析平台

摘要：本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取，数据清洗，处理，存储，以及介绍)。大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时，如果大数据分析系统无法在第…

翻译小组

2016-02-25

00

数据中台

浅谈12306核心模型设计思路和架构设计

摘要：元宵节结束，年就真的过完了。挥别故里，回到打拼的城市，理性思维是否也跟着工作状态一起回归了呢？每一年的春运都是对 12306 的一次大考，抛去盲从和偏见，让我们用工程师的思维重新打量、从业务分析的角度去探讨，12306 的核心模型设计思路和架构设计到底复杂在哪里？为什么我要研究这个问题？春…

大数据精选

2016-02-25

00

数据中台

谈谈MATLAB大数据处理

摘要：今天多数的大数据方案都是依托Hadoop环境来做结构化和非结构化数据处理，如何把自己的Hadoop算法快速部署到实际的生产环境当中去，对很多企业的大数据部署也提出了挑战。CSDN专访MathWorks中国资深技术专家陈建平，分享大数据解决方案。近年来，随着大数据在Google、Facebo…

大数据精选

2016-02-25

01

数据中台

实时分析社交媒体数据

摘要：本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据，通过创建了一个不停运转的流程序，来演示如何实时获取 Twitter 数据，根据文本和位置来收集推文，并使用了 K 均值算法。这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。您想知…

大数据精选

2016-02-25

00

数据中台

50PB海量数据排序，谷歌是如何做的？

摘要：用于大规模数据集并行运算的MapReduce诞生之后，谷歌工程师对其进行了大规模随机数据的排序测试。最近，他们向外界披露了过去几年的测试数据和经验总结，特别是50PB海量数据的排序，对于关注数据处理的技术人员来说很有借鉴意义。为什么谷歌工程师喜欢测试排序？因为很容易产生任意规模的数据，也很容…

张乐

2016-02-23

00

数据中台

一个母婴电子商务网站的大数据平台及机器学习实践

母婴相对一般的电子商务网站有一些特点：第一个特点是商品周期短，在母婴网站上的商品，在线的时间不会超过5-7天，第二个是用户需求的变化快，在母婴行业，可能是用户的需求变化最快的领域，比如是用户处在怀孕当中，关心的是孕妈的一些问题，几个月以后，随着宝宝的落地，就会准备一些纸尿裤和奶粉，而且随着宝宝的长大…

大数据精选

2016-02-23

00