hadoop
-
教你怎么跟老婆解释MapReduce的概念?
摘要:我是如何向老婆解释MapReduce的? 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebi…
-
你的大数据项目使用的工具正确吗?
摘要:工具/产品/解决方案是数据科学家洞察数据的利器。KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据。 通过主成分析(PCA)法进行降维分析 对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。 分析结果: 当前分析的目标:通过…
-
mmTrix大数据分析平台的基本架构构建过程
摘要:在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使…
-
海纳百川 有容乃大:SparkR与Docker的机器学习实战
题图为美国尼米兹核动力航空母舰 介绍 大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,SparkR和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了分布式计算的操作,还简化了安装部署的环节,我们只几乎…
-
数据湖将如何改变大数据?
摘要:拥抱开源技术的前提——认识数据湖 世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据…
-
数据就是力量:亚马逊如何练就“读心术”?
摘要:精准的推荐、心水的价格、充足的库存以及高效率的配货,在你还未下单之前,亚马逊早已使用“读心术”并作出预测,为你计划好了一整套井井有条的购物体验。作为电商巨头的鼻祖,二十几年来依然占领着电商界前几名位置,亚马逊自家的大数据系统是当之无愧的大功臣。 “数据就是力量”,这是亚马逊的成功格言。EKN研究的最新报告显示,80%的电子商务巨头都认为亚马逊的数据分析…
-
大数据工作职位所需的数据场技能包
摘要:除了报表统计外,还需要对数据的有很强的解读能力。电商中的个性推荐技术,商业与银行中的欺骗检测,智能手机中语音识别等等技术,让我们浑身便散发出大数据与机器学习的各种场信息,给人以满满的正能量。 01 数据场 学过物理的小伙伴,都知道世界充满了电场和磁场。了解过佛学的人,都知道世界充满了念力场与信息场,通过信息场,可以与更高一级的文明进行沟通。 有的人一出…
-
百分点技术负责人:我们为什么需要大数据操作系统
导读:去年9月,百分点公司发布了“全球首款”大数据操作系统BD-OS(基于Lambda架构)。日前,百分点技术副总裁刘译璟和百分点BD-OS产品线高级研发总监刘国栋接受CSDN记者采访,结合BD-OS的设计、研发和架构,对大数据技术演进及应用实践的趋势进行了解读。 所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几…
-
如何面对PB级别数据的架构变迁?
摘要:在《Redis集群技术及Codis实践》这篇文章介绍过Codis,今天云智慧的张克琛总监为我们带来了他在运维PB级数据过程中,对于Codis与数据库管理方面的实践经验,是非常有实操性的一篇分享。在把未知问题场景化、问题化、方案化等方面值得我们学习和借鉴。 面对PB级别数据存储,我们一路走来也踩过很多坑,这里就直接进入主题了,给大家分享一下监控宝系统架构…
-
十大最热门的大数据技术
摘要:随着大数据分析市场的快速渗透到各行业务,哪些大数据技术是刚需?哪些技术有极大的潜在价值? 根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术: 预测分析:随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险; NoSQL数据库:非关系型数据库包括Key-value…
-
如何建立一个完整可用的安全大数据平台
摘要:要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患 1、…
-
达观数据分析平台架构和Hive实践
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 近十年来,随着Hadoo…
-
一篇文章读懂Hadoop:风雨十年,未来何去何从
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(…
-
领英宣布开源数据挖掘软件WhereHows
摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…
-
星环科技获1.55亿元B轮融资,定位做Hadoop时代的Oracle
3月1日,星环科技已完成 1.55 亿元的 B 轮融资,由上海瑞力投资、深创投、中小企业发展基金、基石资本等投资。本轮融资之前,星环科技共完成天使轮 /A 轮 /A+ 轮三轮融资,总金额达 7000 万人民币。投资方有方广资本、启明创投等知名 VC,以及恒生电子等上市公司,并在 B 轮继续跟投。 简单概括,星环科技就是提供一站式 Hadoop 大数据平台,可…