数据挖掘
-
数据挖掘化功大法(5)——数据类型
1、数据对象 相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。 属性:属性可以标签的、二元的、序列的或数值的。 标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。 二元属性:就是我们常说的bool属性。一种情…
-
数据挖掘化功大法(4)——数据挖掘涉及的技术
数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 下图比较清楚的画出了学习数据挖掘需要掌握的知识内容: 1、统计学 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科…
-
数据挖掘化功大法(3)——谈谈支持度和置信度
支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。 该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。 如:某超市中有10…
-
数据挖掘化功大法(2)——挖掘模式
数据模式包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析等。 任务可以分为两类:描述性和预测性数据。 数据特征化:汇总所研究类的数据。 数据区分:将目标类一个或多个可比较类进行比较。 频繁模式挖掘、关联和相关性: 频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以…
-
数据挖掘:“啤酒+尿布”的关联规则是怎么来的?
关联,其实很简单,就是几个东西或者事件是经常同时出现的,“啤酒+尿布”就是非常典型的两个关联商品。
-
数据挖掘化功大法(1)——建立数据仓库的意义
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 1、多数据整合 将分布在各处的数据整合到统一的数据仓库中,以便处理。 上图是数据仓库的…
-
阿里巴巴算法工程师笔试题选
阿里巴巴算法工程师笔试题。
-
关于几个数据挖掘问题的回答
什么是数据挖掘,数据挖掘要解决什么问题?大家都知道数据挖掘最花时间就是在变量清洗上,如何清洗变量?如何将挖掘成果很好的展示给用户?这些问题也许通过下面这些问答你可以找到自己的答案。
-
给数据挖掘、数据建模工程师的9条定律
给数据挖掘、数据建模工程师的9条定律,收藏!
-
“活”的大数据实战——人群标签及标签关联性挖掘
引言 2013年初,第85届奥斯卡金像奖颁奖礼在美国好莱坞举行。而在颁奖礼之前,微软纽约研究院经济学家David·Rothschild通过大数据分析,对此次奥斯卡各奖项的得主进行了预测。结果显示,除最佳导演奖有所出入外,其它各奖项全部命中。这并不是David第一次准确预测,在2012年美国总统大选中,他就曾准确预测了51个选区中50个地区的选举结果,准确度高…
-
游戏数据分析:用户流失模型的建立
流失预测模型在很多行业都有引用到切实的市场运营当中,而接下来就开门见山的说一下游戏行业有关用户流失模型的建立。 目标:关于游戏用户的流失,普片的衡量指标有周流失与月流失,接下来研究的问题有两个: ① 有关付费用户的月登陆流失问题 ② 有关付费用户的月付费流失(付费用户的月登陆流失定义:本月充值的用户在下个月不再有登陆行为。付费用户的月付费流失:本月充值的用户…
-
数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和…
-
几个关于数据挖掘的问题
什么是数据挖掘,数据挖掘要解决什么问题?大家都知道数据挖掘最花时间就是在变量清洗上,如何清洗变量?如何将挖掘成果很好的展示给用户?这些问题也许通过下面这些问答你可以找到自己的答案。 1.如何定位挖掘目标? 答:数据挖掘的目的是为了解决所提出的业务问题,因此,只要把所要解决的业务问题加以清晰化,应该不难将之转化为相应的挖掘目标。 2.确定目标后如何选择算法? …
-
数据挖掘和统计学专业术语大盘点
一、数据挖掘术语 【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。 【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个“域” 。 【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、 或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。 【置信度】在形如“如果买了A和B,…
-
数据挖掘过程中经常犯的11个错误
数据挖掘过程中绝不能犯这11大错误。