数据中台
-
三种优化方式让你的数据分析如虎添翼
摘要:融合式基础架构系统为我们提供了很多有效地进行大数据分析所需的资源,包括处理Hadoop的能力以及大规模存储能力。
-
解密深度学习在智能推荐系统的实践与应用
摘要:与传统的浅层机器学习相比,深度学习具有优秀的自动提取抽象特征的能力,并且随着分布式计算平台的快速发展,大数据的处理能力得到极大的提升,使得近年来DL在工程界得到广泛的应用,包括图像识别,语音识别,自然语言处理等领域,并取得比传统机器学习更好的效果提升。另一方面,智能推荐系统,本质上是从一堆看似杂乱无章的原始流水数据中,抽象出用户的兴趣因子,挖掘出用户的…
-
数据开发系列篇:大数据处理和编程实践Hadoop
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…
-
大数据概念近乎透支,人工智能如何撩起下一波创业高潮?
摘要:大数据概念被热炒多年之后,我们是时候开始关注大数据与人工智能在具体领域中的应用问题。那么,目前大数据和人工智能领域还存在着哪些技术挑战如何找到大数据和人工智能的创业入口,利用数据挖掘和机器学习的能力创造出更大的商业价值 作为第四次工业革命的引领性领域,近年来的人工智能和大数据持续升温。最近的AlphaGo事件更是将人工智能的前沿技术呈现于大众面前。 大…
-
让大数据成为一种基本的使用和操作能力
摘要:“大数据”之“大”,不仅仅源于其体量的庞大,更表现在它的无处不在。数据充斥在我们生产生活的方方面面,从大数据分析中获得竞争优势,已不再是所谓的高精尖企业或是高大上的科研项目的专利。它与劳动力、资本一样,开始为企业提供重要的生产因素。 你承认吗我们正生活在逐渐被大数据掌控的时代。我们在论坛里评论发帖,我们在社交平台晒照片,我们在网购后对产品留下评价…… …
-
教你怎么跟老婆解释MapReduce的概念?
摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…
-
mmTrix大数据分析平台的基本架构构建过程
摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…
-
推荐系统算法初探
0. 序言 最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的: 而对于刚接触这个领域的我来说,是这样的: 在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。 1、什么是推荐系统? 推荐系统是啥? 如果你是…
-
Spark在美团具体应用场景下的实践
前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以…
-
Spark知识体系完整解读
摘要:2014年6月至今工作于北京亚信智慧数据科技有限公司 BDX大数据事业部,从2014年9月开始从事项目spark相关应用开发。 Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等…
-
我所经历的大数据平台发展史-下篇 互联网数据模型
摘要:本章节是“我所经历的大数据平台发展史”最后一章,含有一番外篇,算是对文章提到的数据模型、数据产品的一些细节补充。预计阅读完毕需要20分钟左右。 互联网时代被弱化的数据模型 谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代、四种架构”,但是到了互联网时代因为大数据快速膨胀与…
-
Uber的大数据分析实践,及其惊人的表现
摘要:Uber是一款提供出租车预订服务的智能手机应用,为需要搭车的用户和想要载客的司机搭建了沟通渠道。这项服务引起了很大争议,一方面普通的出租车司机抱怨Uber毁掉了他们的生计,另一方面民众担心Uber的司机缺乏监管。 但这些争议并没能阻止Uber取得巨大的成功:2009年发布时仅覆盖旧金山一地,到了现在,除了南极洲之外,已覆盖所有大陆的许多主要城市。 这家…
-
数据湖将如何改变大数据?
摘要:拥抱开源技术的前提——认识数据湖 世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据…
-
百分点技术负责人:我们为什么需要大数据操作系统
导读:去年9月,百分点公司发布了“全球首款”大数据操作系统BD-OS(基于Lambda架构)。日前,百分点技术副总裁刘译璟和百分点BD-OS产品线高级研发总监刘国栋接受CSDN记者采访,结合BD-OS的设计、研发和架构,对大数据技术演进及应用实践的趋势进行了解读。 所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几…
-
如何面对PB级别数据的架构变迁?
摘要:在《Redis集群技术及Codis实践》这篇文章介绍过Codis,今天云智慧的张克琛总监为我们带来了他在运维PB级数据过程中,对于Codis与数据库管理方面的实践经验,是非常有实操性的一篇分享。在把未知问题场景化、问题化、方案化等方面值得我们学习和借鉴。 面对PB级别数据存储,我们一路走来也踩过很多坑,这里就直接进入主题了,给大家分享一下监控宝系统架构…