大数据技术
-
什么样的SQL引擎能挑战运营、报表、分析三位一体化?
传统的关系型数据库虽然在解决大数据问题上力不从心,而SQL却是经过几十年考验的成熟技术。
-
这10个巨大的科学难题靠大数据可以解决吗?
摘要:大数据不仅可以应用在人类日常生活中,还可以用来解决那些烧脑的科学难题。既能“接地气”,又能“高大上”,本文主要分析目前10类需要用数据分析来解决的科学难题 在劳伦斯伯克利国家实验室的超级计算中心,我领导国家能源研究科学计算中心NERSC的数据和分析小组。在这个角色上,我追踪需要大数据分析来解决的前沿科学问题。超过6000个用户使用了NERSC的超级计算…
-
面向高维度的机器学习的计算框架-Angel
简介 为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开发的专有机器学习计算系统,用户可以像用Spark, MapReduce一样,用它来完成机器学习的模型训练。Angel已经支持了SGD、ADMM优化算法,同时我们也提供了一些常用的机器学习模型;但是如果…
-
Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要…
-
到底该使用哪一种大数据编程语言:R、Python、Scala和Java
说到处理大规模数据,R、Python、Scala和Java基本上都能满足你的要求。 你有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题…
-
Hbase表设计及开发在实际案例中的运用
大数据技术如火如荼,在大数据挖掘及分析平台技术中,作为海量数据操作及高客户端并发解决方案的 NoSQL 技术特别是 Hbase 首当其冲,在众多项目中得到广泛的应用,但对于 Hbase 表设计模式/IO 考虑/性能调优等实战经验性资料较为匮乏。 本文介绍了 Hbase 的数据模型原理,分析了 Hbase 表扫描/查询操作的时间复杂度,并通过一个游戏公司客户实…
-
科大讯飞大数据架构师孙利兵:搭建大数据开放平台的难点何在?
编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 大数据发展趋势 …
-
QCon北京:构建大数据生态需要哪些核心技术?
2016年QCon全球软件开发大会北京站于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没能到现场聆听的小伙伴们奉上饱满的干货内容。(进入QCon北京2016大会官网,免费下载三天的讲师演讲PPT。) 参与大数据技术实践分享的厂商有:通联数据、明略数据、Fr…
-
巨杉数据库CTO王涛:从大数据地形图看大数据发展
【导读】硅谷著名投资机构Firstmark近期发布了2016年的大数据行业地形图,展现了如今大数据厂商的分布。巨杉CTO王涛从地形图出发对于大数据的发展也有着自己的见解,他认为,想做好企业大数据,其实并不容易。 在新兴事物收到追捧的科技创新行业中,“大数据”目前正在走向理性与成熟。随着2006年Hadoop的成立, 在2011年到2014年间人们对“大数据”…
-
李昊:谈谈数据仓库建设心得(下)
分享记录: 下面是具体的模型设计,一般在数据仓库行业,业务模型有两类,一类是企业自有的数据模型,一类是行业模型,比如金融业:天睿,银行业、保险业、制造业、医疗生命科学行业,这些一般是实施顾问团队总结的。但这些行业模型在中国市场运行的不太好,除了金融和电信稍好点,其他行业因发展较快、业务变化较快,迭代较国外快很多。我不建议以自上而下的方式、预先用一个模型将自己…
-
李昊:谈谈数据仓库建设心得(上)
分享记录: 数据仓库在业界的定义,是数据仓库之前BILL最早提出的。数据仓库的建设需要一个过程,是一个方法论。数据仓库建设是把企业中所有的数据整合,加工,分析的过程。用于解决数据经营,管理问题。他不像一个产品或者数据库一样,可直接购买。 OLTP就是我们通常说的所谓业务系统。它和数据仓库是有明显差异,业务系统重在当前数据,重在是插入,比如我们一个电商交易数据…
-
有赞搜索引擎实践(算法篇)
1. 搜索算法总体架构 在上篇文章(工程篇)中, 我们介绍了有赞搜索引擎的基本框架. 搜索引擎主要3个部件构成. 第一, hadoop集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能. 商业电商搜索由于搜索的特殊性, 独立的ElasticSearch集群…
-
有赞搜索引擎实践(工程篇)
随着互联网数据规模的爆炸式增长, 如何从海量的历史, 实时数据中快速获取有用的信息, 变得越来越有挑战性. 一个中等的电商平台, 每天都要产生百万条原始数据, 上亿条用户行为数据. 一般来说, 电商数据一般有3种主要类型的数据系统: 关系型数据库, 大多数互联网公司会选用mysql作为关数据库的主选, 用于存储商品, 用户信息等数据. 关系型数据库对于事务性…
-
小白学数据:一篇文章看懂NoSQL数据库
如果你关注大数据科技动向,可能听说过一个叫NoSQL数据库的名词,这可能让人有些云里雾里。其实我们处在一个激动人心的技术更迭时代,以甲骨文为代表的SQL数据库已经称霸了企业市场30年,而近年来的NoSQL则是强有力的更新换代的竞争者。这篇文章就通过问答的方式来给小白解释NoSQL数据库系统是什么,无论你的技术背景如何都能看得懂。对于数据分析从业人员来说,了解…
-
数据开发系列篇:大数据处理和编程实践Hadoop
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…