数据挖掘
-
数据挖掘问答精选收藏
1.现在有大数据、精准挖掘、人工智能等这么多概念及技术,它们之间的关系以及企业大数据实施的路线图应该是怎样的?来自用户 SmartMining 的回答: 大数据、数据挖掘、人工智能三者的关系可以简单的理解为:大数据是原材料,数据挖掘是加工厂,而人工智能是数据产品尤其是基于数据挖掘技术建立的专家系统的设计理念。 通过使用数据挖掘技术对大数据进行价值提取、加工,…
-
协同过滤推荐算法的原理及实现
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based col…
-
决策树分类和预测算法的原理及实现
摘要:决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。 决策树由3个主要部分组成,分别为决策节点,分支,和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节…
-
大嘴巴漫谈数据挖掘:外部调研看态度,主观客观双结合
在具体的研究过程中,分为外部调研和内部数据分析两个过程。 外部调研包括用户消费习惯和使用态度的研究,一是通过搜集用户基本属性信息以及使用产品的行为偏好信息来了解用户对产品的认知程度;二是通过搜集用户使用产品的反馈信息来了解用户对产品各方面的评价。 内部数据分析方法主要用来目标用户识别,依照用户的产品订购及使用行为,从多个维度对目标用户进行分析,以此了解用户使…
-
大嘴巴漫谈数据挖掘:产品运营重精确,产品导入先认知
运营是介于产品开发和营销之间的一种运作状态。一般来说,随着业务的深入发展,以经验型为主粗放式运营必然转向以分析型为主的精细化运营。运营首先要处理好精确和准确的关系:准确是指真实值与测量值之间的误差程度小,精确表示在条件不变的情况下,真实值和测量值之间的误差程度能够反复再现。 运营分析需要保证结果的精确性,也就是常说的“次次如此、回回一样”,可以容忍一定程度上…
-
FICO信用评分模型你知道多少?
说到中国的银行风控,大家可能都会想到两个概念,一个是央行的征信系统,还是一个就是美国的FICO。 FICO的信用评分系统究竟有多牛?为什么世界100强银行中,就有三分之二在使用它,为什么在美国没有FICO的信用评分卡就会寸步难行呢?为什么几乎全中国的银行都在使用这个洋玩意儿? 今天小编就来揭秘FICO的信用评分模型,看看它究竟有何特别之处? 众所周知,美国的…
-
11款开放中文分词引擎大比拼
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。
-
如何处理数据中的缺失值
现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。 一、常用方法 1. 删除 最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该维属…
-
新浪微博的用户画像是怎样构建的?
【摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢这个新浪微博的案例或许能告诉你正确答案 1.概述 从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(…
-
统计学和数据挖掘的异同探讨
1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 统计学和数据挖掘研究目标的重迭自然导致了迷惑。…
-
微信红包的随机算法是怎样实现的?
摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoneyPackage数据结构如下: 测试时初始化相关数据是: 测试…
-
以性别预测为例,谈谈数据挖掘中的分类问题
摘要:互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。 数据挖掘的基本内容 首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下: Data mining is the use o…
-
如何做好数据挖掘与数据建模的9条经验总结
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的…
-
空间数据挖掘认识及其思考
摘 要: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。 0 引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开…
-
大嘴巴漫谈数据挖掘:问卷测试评分项,测试结果分析中
在产品试商用的定量测试结果分析中,首先通过实际数据展示了产品下载安装成功率的具体情况。如上所示,可以看出,其中有90%的测试用户安装成功,有10%的测试用户出现了问题,而安装不成功主要归咎于三种情况,应重点关注并及时改进完善。 接下来的产品偏好评价方面,如上所示,最上面描述了影响产品各个指标的体验得分及权重。纵坐标表示各个指标的重要性程度,横坐…