数据仓库
-
IBM数据分析战略:要做大数据时代的“淘宝”平台
摘要: 继发力认知商业和认知计算后,IBM的大数据与分析业务也将在中国市场逐一落地,为中国企业、开发者以及软件开发商等,搭起一个 “淘宝”式超级数据平台。 IBM的研究人员在展示通过数据分析提高城市交通水平 下个世纪是大数据的世纪,是从IT走向认知计算的时代。在IT时代成就了一家超级平台,这就是淘宝,而认知时代要做的是数据的生意,那是否有一个类似淘宝的超级数…
-
Alooma获1120万美元融资,专注解决数据分析痛点
摘要:数据水管工,让你专心做分析。 数据处理不仅是分析与可视化,如何将不同位置的数据源整合在一起或许也是个问题。 Alooma是一家以色列创业公司,为公司提供实时处理大数据的云端服务。近日宣布A轮1120万美元融资,由光速创投和红杉资本领投。 他们所针对的是从事数据工作的客户群体,比如数据科学家和在数学或机器学习上拥有高学历的终端用户,而不是从事开发和IT的…
-
领英宣布开源数据挖掘软件WhereHows
摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…
-
数据杂谈
摘要:记得几年前,曾经有人预测过未来最流行的三大技术:大数据、高并发、数据挖掘。到现在来看,这三种技术的确也随着这几年互联网的发展变得越发成熟和可靠。掌握这三种技术的人,不管是求职还是创业,都属于香饽饽。 一个很深的印象就是当年研究生毕业的时候,专业是数据挖掘、大数据的学生都比较受各种企业的青睐,不管他是不是真的掌握了这些东西。虽然我对大部分高校的相关专业持…
-
车品觉:大数据拐点下的数据十诫
摘要:面对高度互联、数据化全面覆盖的时代,我们正在见证电子商务、移动互联网、互联网金融等多领域因数据而发生着的巨变。以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。2014年3月7日,在杭州西子湖畔,阿里巴巴联合… 面对高度互联、数据化全面覆盖的时代,…
-
Airbnb基础数据架构
摘要:这一篇关于Airbnb基础数据架构。云计算尤其亚马逊的云服务(AWS)提供弹性计算能力,无需购买昂贵服务器甚至机房,通过虚拟化主机,还提供丰富配套组件,节约运维成本,方便扩展,成为很多创业公司的首选。这里Airbnb 工程师James Mayfield以AWS作为基础搭建数据架构中走过的坑和经验分享,由于笔者也刚好做过,难度2星,供做数据的朋友学习。 …
-
我所经历的大数据平台发展史-上篇 非互联网时代 1
摘要:本文是面向数据领域的一篇专业文章,里面有大量的专有术语,阅读完大约需要15分钟左右。 前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是…
-
Gartner:说说大数据和BI的共性与个性
说起BI,总是自然而然地想到大数据,然而,实际上二者并不应该被捆绑销售。之所以要区分大数据应用与BI(商业智能),是因为大数据应用与BI、数据挖掘等,并没有一个相对完整的认知。 BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营…
-
创新哥:大数据不是石油,因为时效性很重要
前些时候听说,有某传统企业老板说,大数据是石油,所以我们得像美国一样,暂时不采,等以后再采。可能当初形容大数据就形容错了,大数据不是“石油”,不是什么时候采和用都是那个价值,大数据也是有保值期,要发挥价值就要乘“热”。 记得还是数据仓库 时代,我们会都会将近几年的历史数据存入数据仓库,然后每日最新的数据增量导入。但一般决策要看趋势数据,一般只看近2、3年,再…
-
大数据技术:OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。 OLTP的特点一般有: 1.实时性要求高; 2.数据量不是很大; 3.交易一般是确定的,所以OLTP是对确定性的数据进行存取;(比如存取款都有一个特定的金额) 4.并发…
-
一个数据仓库转型者眼中的数据挖掘
对于大多数非从业者或者初学者来说,数据仓库(Data Warehousing)与数据挖掘(Data Mining)是很容易混淆的两个概念。有个形象的比喻说:如果把数据仓库比做一个大型的矿坑,那么数据挖掘就是入坑采矿的工作,数据挖掘需要有非常好的数据基础,没有丰富完整的数据,是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。
-
数据挖掘化功大法(19)——什么是数据挖掘(下)
什么是数据仓库 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理: ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; ②数据仓…
-
数据挖掘化功大法(10)——HP Vertica
考虑到企业数据仓库的重要战略意义(EDWs)和每年投入的巨额维护和扩展费用,如何容易地访问这些大量信息资产是非常迫切的需求。然而,许多EDWs成为自己成功的受害者。随着时间的推移,用户获取新问题答案的需要导致EDWs包含的数据量和复杂数据类型发生迅速增长,同时也带来更多的并发和复杂分析的压力。如果企业级数据仓库变得无法应付这种变化,或者服务水平协议(SLA)…
-
数据挖掘化功大法(4)——数据挖掘涉及的技术
数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 下图比较清楚的画出了学习数据挖掘需要掌握的知识内容: 1、统计学 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科…
-
数据挖掘化功大法(1)——建立数据仓库的意义
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 1、多数据整合 将分布在各处的数据整合到统一的数据仓库中,以便处理。 上图是数据仓库的…