数据中台
-
我所经历的大数据平台发展史-互联网时代
前言,本篇幅将进入大家熟知的互联网时代,数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,在这一篇章中将引用部分互联网数据平台架构,在这里仅作案例。 相信很多从传统行业转到互联网时是各种不适应,适应短则几个月,长则一年以上。进入到互联网有种感觉,它是一个擅长制造流行新概念的行业,“数据平台“,”数据产品“也不幸免。数据平台这词Dat…
-
如何建立一个完整可用的安全大数据平台
摘要:要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…
-
如何基于Spark进行用户画像?
摘要:从数据分析、机器学习和结果三方面详解利用高性能分布式计算平台解决现实问题的过程。 近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。 主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个驾驶类型的算法类签名,来表征驾驶员的特征。例如…
-
达观数据分析平台架构和Hive实践
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 近十年来,随着Hadoo…
-
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
摘要:本文是一位算法师工程师的Spark机器学习笔记,教你构建一个简单的推荐系统。 推荐引擎应用场景: 用户有海量选择:随着场景内item越来越多,用户越来越难以选择到合适的产品 个性化场景:在选择产品时,会借鉴那些与推荐用户相似地群体,利用群体智慧对用户进行推荐”千人千面” 在本篇博客中,会涉及到以下几个部分: 介绍不同类型的推荐引擎 使用用户偏好模型来构…
-
数据库工程师面试常见问题及解答
数据库工程师面试常见问题及解答。
-
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…
-
Airbnb教你使用数据理解用户旅行体验
摘要:Airbnb是如何使用数据理解用户旅行体验的? Airbnb的数据科学家收集数据并使用这些数据来优化产品,通过数据找出问题所在,并且通过数据协助做出业务决策。对于大多数用户,“Airbnb体验”最典型的瞬间就发生在现实世界——当他们根据自己计划去旅行时,当酒店主人跟他们打招呼时,当他们住在酒店时,当他们探索目的地时。这些瞬间决定了Airbnb体验的成败…
-
如何牛逼地设计电影推荐系统
摘要:如何牛逼地设计电影推荐系统 个性化 所谓个性化就是系统在对每个用户进行相关引导时,应该考虑改用户的特点,比如他的历史搜索行为中表现出来的特点,比如是喜欢科幻、或者喜欢文艺,在搜索相关内容时,可以根据这些潜在模式去调整内容的顺序。 精准营销和消费者分群 精准营销是通过用户的个人资料和行为数据,训练特定模型去对用户进行群体划分,这类方法使用的数据能够有效地…
-
从日志统计到大数据分析(九)——宋
前面讲了从数据采集到可视化的五个环节,这些环节有机的组织起来,需要两个关键组件:元数据和调度器。我为了让元数据和元朝对应起来,就把调度器先拿出来讲。大家最早去系统学习调度器,应该是在操作系统课程上,有专门的一章讲调度器的原理,其中花了大量的篇幅讲几种调度算法,但操作系统是如何实现一个调度器,并没有详细讲解。我个人对其都非常困惑,在三年之前,我重新研究操作系统…
-
从日志统计到大数据分析(八)——五代
在上一篇的最后,我把数据处理分成五个阶段,分别是数据采集、数据传输、数据建模/存储、数据统计/分析/挖掘、数据可视化/反馈。这篇主要讲解第一个环节数据采集相关的内容。 如果看过前面几篇,就会体会到我对数据源的重视程度是超乎想象的,认为数据源整好了,数据处理就搞定了一半。如果源头没有整好,后续用再复杂的算法,也不能解决数据缺失和错误所带来的问题,并且会花费许多…
-
从日志统计到大数据分析(七)——魏晋
前面讲了这么多篇,可能你有疑问那什么是大数据分析?它和传统的数据分析有何不同?我们要从大数据的概念开始讲起。 因为从事这一方向,这几年不断会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些资料(如《大数据时代》、《数学之美》第二版、《硅谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识。与其说认识,还…
-
从日志统计到大数据分析(六)——三国鼎立
根据数据源的流向不同,我们可以将互联网公司常用的数据分析方法分为三种: 1,通过嵌入SDK直接将数据发送到第三方平台,如使用友盟、百度统计、TalkingData等;2,直接基于业务数据库,通过写SQL的方式进行数据分析;3,在应用服务器端打印日志,基于日志写脚本进行分析,在百度的早期主要是这一种。 我们这篇文章逐一来分析这三种方法的优势和不足。 1 第三方…
-
从日志统计到大数据分析(五)——楚汉争霸
痛定思痛,我们觉得主要问题出在数据源上。百度有上百条业务线(有一定业务规模的),牵涉到数千个日志模块,每个模块的日志格式都是不一样的。甚至就连Web Server这层,有用Apache的,有用Lighttpd的,也有用Nginx的,用的软件版本可能还是不同的。日志格式五花八门,输出的是非结构化的文本字符串,比如Nginx一条日志: 219.136.113.4…
-
从日志统计到大数据分析(四)——秦天下
转眼到了2011年初,我感觉团队放在网页相关性部门,不利于发展。我的想法是要把团队面向全公司服务,甚至成为像NLP(自然语言处理)部门在厂长心中的地位。但网页相关性部门的上司觉得先服务好本部门就够了。我和基础架构部的一个经理(最早在百度负责维护和开发Hadoop团队的负责人,在他完成了Hadoop在全百度的推广之后,改为负责一个分布式存储团队了)商量了一下,…