数据挖掘模型
-
微博用户关系数据挖掘模型介绍
概述 不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种用户关系仅令传播更加高效。如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱,如图1所示。微博中的信息从社交图谱中的某个节点发出,并通过边来传播。 图1 微博中的社交图谱 但是信息在这个网络中的流动并不是…
-
大数据技术贴:构建一个有指导的数据挖掘模型
摘要:数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。
-
大数据应用:信用评分及模型原理解析
虽然人人都可以通过对借款方在Lending Club和Prosper上的历史借贷数据进行分析,但我相信,了解消费信贷行为、评分机制和贷款决策背后的工作原理可以帮助投资人更好的在市场中进行决策,获得收益。 消费信贷一直是推动世界领先国家经济转型的主要力量。在过去的50年里,消费开支也因此有所增加。根据纽约联邦储备银行家庭债务和信用季度报告,2014年8月,消费…
-
说说数据挖掘算法工程师的三重境界
文/不周山 王国维的人生三重境界快被人们念叨烂了,资深文艺青年都已经不爱提这个,但把这种分法做个跨学科应用,倒是能看到一些新奇的东西。 十一前帮新东家在北京做了一轮校园招聘的算法面试官。虽然面试多年,但这还是我第一次如此密集地从事这项工作——一周时间里马不停蹄地面试了数十名候选者。长时间做一件事情,再结合原来类似的背景和经历,通常会发酵出一些东西,于是就有了…
-
150道数据挖掘试题,你会多少?
单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, …
-
数据挖掘化功大法(5)——数据类型
1、数据对象 相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。 属性:属性可以标签的、二元的、序列的或数值的。 标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。 二元属性:就是我们常说的bool属性。一种情…
-
数据挖掘化功大法(3)——谈谈支持度和置信度
支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。 该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。 如:某超市中有10…
-
数据挖掘化功大法(2)——挖掘模式
数据模式包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析等。 任务可以分为两类:描述性和预测性数据。 数据特征化:汇总所研究类的数据。 数据区分:将目标类一个或多个可比较类进行比较。 频繁模式挖掘、关联和相关性: 频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以…
-
几个关于数据挖掘的问题
什么是数据挖掘,数据挖掘要解决什么问题?大家都知道数据挖掘最花时间就是在变量清洗上,如何清洗变量?如何将挖掘成果很好的展示给用户?这些问题也许通过下面这些问答你可以找到自己的答案。 1.如何定位挖掘目标? 答:数据挖掘的目的是为了解决所提出的业务问题,因此,只要把所要解决的业务问题加以清晰化,应该不难将之转化为相应的挖掘目标。 2.确定目标后如何选择算法? …