数据中台
-
解密Uber数据科学团队路径选择算法的优化之路
一键用车现在已经烂大街,但是 Uber 简单的界面下又隐藏着怎样复杂的后端架构和服务呢?这些复杂的路径规划和订单匹配算法又是如何让车找到人,将人送到目的地的呢?现在让我们揭开Uber App这神秘的面纱。
-
大数据从何而来?这里有你不得不知的7个数据源供应平台
我们都知道一句话“巧妇难为无米之炊”,数据源就是让数据产生价值中的那些大米。那大数据时代企业需要哪些数据呢?
-
5款主流NoSQL数据库全方位对比分析,到底哪家强?
HBase、Redis、MongoDB、Couchbase、LevelDB五款较主流的数据库产品分析对比
-
微博6年Redis优化历程,用最少的机器支撑万亿级访问
微博是从 2010 年开始引入 Redis ,现在 Redis 已经广泛应用于微博的多个业务场景,如关系、计数、通知提醒等,目前 Redis 集群存储超过百亿记录,每天上万亿的读取访问。
-
Uber的大数据之道:Spark已经是“必备神器了”
这一篇来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是“必备神器了”。
-
Hadoop学习资源集合
Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。
-
构建企业大数据体系的六个层级
本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建。
-
满满干货的大数据技术个人博客集合
数据科学领域的相关技术,近两年发展迅猛。有时仅凭个人的经验很难解决一些问题。互联网上遍布各类文章和资源,在学习时应该集万家之长,注重实践,并善于总结。同上面各博客的博主一样为知识的开源做一份贡献,让知识广为传播。
-
Apache六大尚未广为人知的大数据项目
世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。
-
干货:解码OneData,传说中的阿里数据中台是如何练成的?
阿里数据中台的秘密武器——OneData体系,个中细节
-
窥探大数据应用的未来发展方向
大数据应用的下一阶段发展方向在哪里?
-
博客推荐系统第二部分: 基于内容相似性的推荐
在第一篇文章我们介绍了推荐系统的优点,大致可以把推荐系统分为两种类型:基于内容的推荐系统和协同过滤推荐系统。
-
博客推荐系统第一部分:物料准备
众所周知,数据科学的目标是从大数据中创造价值。然而,数据科学也应该满足第二个目标即避免信息过载。一个典型的可以满足这两个目标的系统就是推荐引擎。
-
数据科学是什么?如何才能把数据变成产品?
据哈尔?瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆?奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据?
-
Spark性能优化指南——高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解…