数据中台
-
Hadoop之MapReduce原理详解与源码分析
本文介绍了MapReduce原理详解与源码分析。
-
如何基于DataWorks构建数据中台?
如何构建一个数据中台?一个好的数据中台需要具备哪些功能?
-
云数据库高可用解决方案技术解析
高可用,英文翻译为”High Availability”. 从字面上理解就是要做到服务的full-time的持续可用,但老实说,要做到full-time是不现实的,因为能够影响系统服务可用性的因素实在是太多了,除了软件BUG、硬件故障外还包括系统所依赖的一些第三方服务(如运营商提供的带宽),甚至还包括天灾人祸等;因此我理解所谓的高可用意味着”更少的停服时间”…
-
Pandas 常见的基本方法
作者:实验楼 前言: Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。文章带你学会 Pandas 中的一些常用的基本方法。 知识点: 数据读取与存储Head & Tail统计方法计算方法标签对齐排序…
-
盲目追“数据中台”,迟早药丸
数据中台这个概念已逐步火了起来,但数据中台是什么?我该建数仓、大数据平台还是数据中台?相信看完这篇,你会有个清醒的认识!
-
携程机票数据仓库建设之路
随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。
-
相伴十六载,讲讲我和数据仓库的故事(一)
这其中不仅仅有技术和认知,也有自己的故事,但时间就像一个沙漏,会让存封的记忆变成没有记忆,在沙子漏光之前,笔者还是想努力做些回忆,将其中的片段串起来分享给大家。
-
互联网高可用架构技术实践
作者:jihong10102006 一、什么是高可用 高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。 假设系统一直能够提供服务,我们说系统的可用性是100%。如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是99%。很多公司的高可用目标…
-
Hadoop分布式文件系统详解
本文介绍了Hadoop分布式式文件系统原理以及Hadoop读写流程
-
为什么Spark在数据科学界这么红?
Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 这些组件是当下互联网生态需求的大综合,可以说整个数据应用链,Spark 都完美的提供了解决方案,那么它不红,都没理由了!
-
本月你最值得关注的数据科学开源项目
今天,和大家推荐6个优秀的开源的数据科学项目,对计算机视觉专家的需求每年都在稳步增长,作为一名数据科学专业人士,有很多事情要做,有很多东西要学。希望这6个开源项目对你有所帮助。
-
从开源使用者到Apache PPMC之路
观远数据联合创始人&首席架构师吴宝琪, 作为 Apache DolphinScheduler 的PPMC参加了 Apache DolphinScheduler 的首届用户大会, 并在大会上做了《从开源使用者到Apache PPMC之路》的分享。
-
Apache Kafka快速入门指南
Kafka是基于发布订阅的消息系统。最初起源于LinkedIn,于2011年成为开源Apache项目,然后于2012年成为Apache顶级项目。Kafka用Scala和Java编写,因其分布式可扩展架构及可持久化、高吞吐率特征而被广泛使用。
-
大数据知识图谱实战经验总结
作为数据科学家,我想把行业新的知识图谱总结并分享给技术专家们,让大数据知识真正转化为互联网生产力!
-
数学 vs 编程,哪个才是数据科学的敲门砖?
无论是数据科学家还是数据分析师,都需要跨学科人才,必须知道如何操作代码以便告诉计算机如何分析数据。