数据中台
-
大数据分析技术生态圈一览
摘要:大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。 这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。 Platfora 这是一款大数据发现和分析平台。 Qlikview 这是一款引导分析平台。 Sisense 这是…
-
为什么越来越多的公司在使用Spark Streaming
Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Streaming不断增长的用户群中,Uber、Netflix和Pinterest等家喻户晓的公司赫然在列,…
-
从内部机理的角度,详细分析Hadoop的核心架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内…
-
大数据/数据挖掘/推荐系统/机器学习相关资源
摘要:分享大数据/数据挖掘/推荐系统等相关资源,小伙伴们还不赶紧收藏起来备用 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资…
-
用文本挖掘技术分析电商非结构化的评论数据
电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度挖掘,可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1、用户评论分类 场景 用户评论能反映出用户对商品、服务的关注点和不满意点。评论从情感分析上可以分为正面与负面。细粒…
-
阿里巴巴分布式数据库服务实践
摘要:经过近一年的运营,阿里巴巴的分布式数据库(DRDS)已经协助电商,电信,银行,政府等多种类型的系统进行过业务分布式改造,在系统实施的过程中,我们碰到和解决了哪些问题 他们是怎么解决的背后的思考是什么未来在何方 以下来分享下精彩内容。 DRDS简介 起源 DRDS 脱胎于 alibaba的cobra 分布式数据库引擎,06年上线使用,在alibaba有近…
-
如何让Hadoop结合R语言做大数据分析?
【编者按】R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。作者从一个程序员的角度对R语言和Hadoop做了一…
-
数据模型需要多少训练数据?
摘要:毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。 训练数据的质量和数量通常是决定一个模型性能…
-
世纪佳缘用户推荐系统演变的故事
摘要:世纪佳缘用户推荐系统演变史 作为国内最大的婚恋交友系统,世纪佳缘近年来一直在大力发展互联网大数据相亲模式,从成立之初会员自己根据条件“大海捞针”的寻找,到现在的“懂你”系统、“人脸识别”系统,世纪佳缘的用户推荐系统正在一步步的完善和拓展,大数据相亲已经成为互联网婚恋交友网站的发展趋势。 世纪佳缘从2013年开始全力推进业务从PC端向移动端的转移,截至今…
-
说说大数据框架Hadoop和Spark的异同
摘要:谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: …
-
股票交易实时分析系统的架构与算法
【摘要】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀。虽然股票价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给出了一种…
-
京东咚咚大数据架构演进
咚咚是什么?咚咚之于京东相当于旺旺之于淘宝,它们都是服务于买家和卖家的沟通。 自从京东开始为第三方卖家提供入驻平台服务后,咚咚也就随之诞生了。 我们首先看看它诞生之初是什么样的。 1.0 诞生(2010 – 2011) 为了业务的快速上线,1.0 版本的技术架构实现是非常直接且简单粗暴的。 如何简单粗暴法?请看架构图,如下。 1.0 的功能十分简…
-
后Hadoop时代的大数据架构
摘要:提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台…
-
美团的推荐算法实践
前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后…
-
大数据技术:OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。 OLTP的特点一般有: 1.实时性要求高; 2.数据量不是很大; 3.交易一般是确定的,所以OLTP是对确定性的数据进行存取;(比如存取款都有一个特定的金额) 4.并发…