大数据技术
-
海云数据荣获2015-2016年度大数据领军企业奖
5月12日,2016中国大数据技术与应用推进大会在北京召开,海云数据荣获2015到2016年度大数据领军企业奖。
-
Spark性能优化指南——高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解…
-
数据挖掘,想说爱你并不容易
基于大数据技术能带来哪些新的应用类型,进而为客户带来新的价值增长点?要回答这个问题,有关数据挖掘方面的讨论是一个不可回避的,但是数据挖掘,在应用层面引起的争议也是非常大的。
-
你不需要Hadoop做数据分析的10个理由
为你的业务使用大数据技术是一个非常有吸引力的事情,现在Apache Hadoop使得它更加吸引人了。
-
【实战】利用MapReduce分析明星微博数据
互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简单。
-
什么样的SQL引擎能挑战运营、报表、分析三位一体化?
传统的关系型数据库虽然在解决大数据问题上力不从心,而SQL却是经过几十年考验的成熟技术。
-
这10个巨大的科学难题靠大数据可以解决吗?
摘要:大数据不仅可以应用在人类日常生活中,还可以用来解决那些烧脑的科学难题。既能“接地气”,又能“高大上”,本文主要分析目前10类需要用数据分析来解决的科学难题 在劳伦斯伯克利国家实验室的超级计算中心,我领导国家能源研究科学计算中心NERSC的数据和分析小组。在这个角色上,我追踪需要大数据分析来解决的前沿科学问题。超过6000个用户使用了NERSC的超级计算…
-
面向高维度的机器学习的计算框架-Angel
简介 为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开发的专有机器学习计算系统,用户可以像用Spark, MapReduce一样,用它来完成机器学习的模型训练。Angel已经支持了SGD、ADMM优化算法,同时我们也提供了一些常用的机器学习模型;但是如果…
-
Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要…
-
到底该使用哪一种大数据编程语言:R、Python、Scala和Java
说到处理大规模数据,R、Python、Scala和Java基本上都能满足你的要求。 你有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题…
-
Hbase表设计及开发在实际案例中的运用
大数据技术如火如荼,在大数据挖掘及分析平台技术中,作为海量数据操作及高客户端并发解决方案的 NoSQL 技术特别是 Hbase 首当其冲,在众多项目中得到广泛的应用,但对于 Hbase 表设计模式/IO 考虑/性能调优等实战经验性资料较为匮乏。 本文介绍了 Hbase 的数据模型原理,分析了 Hbase 表扫描/查询操作的时间复杂度,并通过一个游戏公司客户实…
-
科大讯飞大数据架构师孙利兵:搭建大数据开放平台的难点何在?
编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 大数据发展趋势 …
-
QCon北京:构建大数据生态需要哪些核心技术?
2016年QCon全球软件开发大会北京站于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没能到现场聆听的小伙伴们奉上饱满的干货内容。(进入QCon北京2016大会官网,免费下载三天的讲师演讲PPT。) 参与大数据技术实践分享的厂商有:通联数据、明略数据、Fr…
-
巨杉数据库CTO王涛:从大数据地形图看大数据发展
【导读】硅谷著名投资机构Firstmark近期发布了2016年的大数据行业地形图,展现了如今大数据厂商的分布。巨杉CTO王涛从地形图出发对于大数据的发展也有着自己的见解,他认为,想做好企业大数据,其实并不容易。 在新兴事物收到追捧的科技创新行业中,“大数据”目前正在走向理性与成熟。随着2006年Hadoop的成立, 在2011年到2014年间人们对“大数据”…
-
李昊:谈谈数据仓库建设心得(下)
分享记录: 下面是具体的模型设计,一般在数据仓库行业,业务模型有两类,一类是企业自有的数据模型,一类是行业模型,比如金融业:天睿,银行业、保险业、制造业、医疗生命科学行业,这些一般是实施顾问团队总结的。但这些行业模型在中国市场运行的不太好,除了金融和电信稍好点,其他行业因发展较快、业务变化较快,迭代较国外快很多。我不建议以自上而下的方式、预先用一个模型将自己…