聚类分析
-
诸葛ioCEO孔淼:从第三方数据到第一方数据的技术变革
如果把我在数据分析的经验划分的话,刚好也就是我所经历的两次创业阶段,第一阶段是“第三方数据分析”,第二阶段是“第一方数据分析”。所以今天咱们就来漫谈下第三方到第一方数据分析。
-
吃货福音:大数据告诉你今天吃什么?
摘要:大家五一节快乐!放假期间有没有想过出去搓一顿呢不过,身为选择困难症的吃货,感觉每天都要受到来自各方面的信息攻击:熟人在朋友圈晒美食,陌生人在网上分享食谱,连美食app也不放过推荐。好像全世界都在向你推荐今天吃什么……所以,今天到底该吃什么啊我们提出了一个构想,帮你解决吃什么的问题。 “今天吃什么?” “随便。” “能不能不要天天说随便?你每次说了都跟没…
-
K-Means聚类算法的原理及实现
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K值决定了初始质…
-
检测异常值的参数和非参数方法(续)
摘要:在之前的文章中,我们讨论了如何利用单变量和多变量分析的方法来检测异常值。接下来我们将介绍如何利用聚类方法识别多变量情形中的异常值。 推荐阅读:检测异常值的参数和非参数方法 顾名思义,聚类方法就是将特征相似的样本聚集在同一个类别中,因此样本间的相似性是一个非常重要的概念,我们需要考虑如何量化样本间的相似情况。通常情况下,我们用样本之间的距离远近来衡量其相…
-
检测异常值的参数和非参数方法
摘要:如何利用参数和非参数方法来检测异常值 异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢 有许多用来识别异常值的参数和非参数方法,参数方法需要一些关于变量分布情况的假设条件,而非参数方法并不需要这些假设条件。此外,你还可以利用单…
-
一篇文章透彻解读聚类分析及案例实操
摘要:本文主要是介绍一下SAS的聚类案例,希望大家都动手做一遍,很多问题只有在亲自动手的过程中才会有发现有收获有心得。这里重点拿常见的工具SAS+R语言+Python介绍! 1 聚类分析介绍 1.1 基本概念 聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同,处于不同聚类…
-
Python中用K-均值聚类来探索顾客细分
基于 Python 的顾客细分 在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你就可以…你猜对了,获得更多的客户!在这篇文章中,我将详细介绍您如何可以使用K-均值聚类来完成一些客户细分方面的探索。 我们的数据 我们使用的数据来自 John Foreman …
-
漫谈:机器学习和数据挖掘中一些常见的距离公式和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 …
-
【Python】爬虫+K-means聚类分析电影海报主色调
摘要:每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢? 利用Python爬取海报数据 为了回答这个问题,我们需要分析不同风格电影的海报情况。首先,我们需要构建一个电影海报数据的数据集,因此我利用…
-
以性别预测为例,谈谈数据挖掘中的分类问题
摘要:互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。 数据挖掘的基本内容 首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下: Data mining is the use o…
-
空间数据挖掘认识及其思考
摘 要: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。 0 引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开…
-
数据挖掘的常用方法、功能和一个聚类分析应用案例
摘要:笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科)。当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整。除此以外,笔者尝试学习了SMARTBI公司中的Smart Mining软件,并跟随其提供的示例教程进行了学习。为方便阅读,将其示例教程结合自己的体会作为文章的第三部分。 一、数据挖掘的常用方法 利用数据挖掘进行数据…
-
大嘴巴漫谈数据挖掘:卡片分类排架构,开放聚合按距离
卡片分类法选择结构设计的最终使用者作为目标用户。用户数量可以根据卡片数量的多少来确定,在没有特别要求的情况下,一般建议15人左右为宜。首先将待分类的内容用一句总结性的语言进行概括描述,然后做成卡片的形式,卡片正面描述分类内容,背面显示标记序号,便于后续统计分析。 如前所述,封闭式卡片分类法最初类别已定,对于某一卡片,用户投入最多选择比例的类别即为该卡片的所属…
-
数据挖掘必须要具备知识结构类型
一、概念/类描述 概念/类描述就是通过对某类对象关联数据的汇总,分析和比较,用汇总的简洁的精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为:特征性描述和区别性描述。 特征性描述:是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的同性。。 区别性描述:描述两个或者更多不同类对…
-
数据挖掘系列篇:聚类算法概述
本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类 分类是“监督学习”,事先知道有哪些类别可以分。 聚类是“无监督学习”,事先不知道将要分成哪些类。 举个例子,比如苹果、香蕉、猕猴桃、手机、电话机。根据特征的不同,我们聚类会分为【苹果、香蕉、猕猴桃】为水果…