如何通过K-means进行人群聚类?

​K-means聚类,是聚类当中非常常用的方法之一。今天和大家分享一下关于K-means(也叫K均值)聚类。

​K-means聚类,是聚类当中非常常用的方法之一。今天和大家分享一下关于K-means(也叫K均值)聚类。
01、K-means整体思路

和层次聚类不同的是,K-means聚类不是把样本一个一个聚集起来,而是对整体样本空间进行分割。因此,K-means聚类属于分割法的一种。

在聚类前,我们首选需要预置一个划分的数量,即k。然后进行k个区间的划分。目标是找到k个族群的划分方式,最终使得划分后的族群内的方差最小。

图片

具体步骤如下:

  • 步骤一:选定k个“种子”样本,作为初始的族群代表;
  • 步骤二:把每个样本归入到距离最近的种子所在的族群;
  • 步骤三:归类完成后,将新产生的族群的质心定为新的种子;
  • 步骤四:重复步骤2和3,直到不需要移动

以上则完成了一个K-means聚类的全过程。

02、如何确定初始值K

了解了上面的步骤,细心地朋友肯定要有疑问,初始值k如何进行确定呢?即应该聚类成几类才是最合理的?

图片

上面的公式是族群内的方差和。我们的目标是使得方差足够小,但又不能是最小。因为其实当k=n时,达到最小,但这种聚类是相当于没有聚类了。

那该如何判断k的取值,使得方差足够小呢?

我们先来看看聚类数量和WGSS的关系,即如下的“碎石图”:

图片

从这个图看的话,我们取k=3比较合适。因为在k=3的时候,族群内的方差和,下降的足够快,而再往后,基本没有太多的下降,也就意味着更多的族群没有太大的意义了。

03、初始种子的选取

另外,初始种子的选取其实也是很重要的,并不是随机选择k个就万事大吉了。为啥呢?

我们看一下下面的例子。

图片

我们想对(a)图的样本进行聚类。很容易观测,若是在左下角和右上角分别取一个初始种子,应该可以很快完成最终(f)的聚类结果。

但是,如果选了(b)图的两个种子,可就比较“费劲”了,虽然最后也会达成(f)的效果,但是明显要经历更多的迭代过程。

因此,初始种子的选取,对于快速达成结果,是有着重要的意义的。更别说,有时初始种子选的不好,可能最后并不能达成全局最优的聚类结果。比如下图:

图片

上面的例子中,初始的三个种子,有两个种子选在了上面的一个族群中,最终的结果就是无论怎么迭代,都无法将右下角的族群,分离出来了。

那具体有哪些方法能最大限度避免上面种子选取的问题呢?

  • 方法一:在相互间隔超过某指定最小距离的前提下,随机选取k个个体;
  • 方法二:选择数据集前k个相互距离超过某指定最小距离的个体;
  • 方法三:选择k个相互距离最远的个体;
  • 方法四:选择k个等距网格点,可能不是数据集的点

在实际操作中,我们可以尝试在多次在不同种子选取方法下的多次聚类。如果不同初始种子的选取对最终的聚类结果产生了很大的不同,或者收敛速度极其缓慢,这说明原始数据的族群差别并不明显。换句话说,这个数据集本身就不太适合聚类。

文章来源于首席数据科学家 ,作者NK冬至

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
Afenxi朋友们的头像Afenxi朋友们编辑
上一篇 2021-05-07 08:18
下一篇 2021-05-11 01:27

相关文章

  • 【数据产品研究】聚焦于用户行为分析的数据产品(一)

    因为工作需要,我的收藏夹里收集了很多数据相关的产品,其实加入收藏,也一直没有时间好好去研究。这几天恰好有时间翻出来逐个体验了番,顺手贴出来,大家一起研究。 1. Heap 是什么? 之前我研究了一个网站叫FullStroy(https://www.fullstory.com),主要是提供用户的行为录屏、回放以及记录用户的每步操作日志并可视化出来。Heap聚焦…

    2014-08-28
    0
  • 数据分析,你逃不掉的几大「坑」

    作者:瑶子 今天想写的主题是:数据分析 ,我一直觉得这属于很多人不知道Ta有多重要、一部分人知道Ta重要但并不重视,只有极少数人真正在工作中重视Ta并且运用Ta。 说一个东西重要,肯定要讲为什么,不然绝对是要被拿着刀追几条街的。 那么,数据分析为什么重要呢?至少有以下好处: 相比“似乎”、“好像”,能够更加客观的呈现真实现状;相比“我以为”、“我觉得”,数据…

    2021-06-29
    0
  • 高手教你用Excel制作百度迁徙数据地图

    摘要:去年春节期间百度发布了基于大数据的可视化产品春运迁徙地图(http://qianxi.baidu.com/),在中国地图上直观地看到各城市间的人流迁徙,经央视报道使用,一时惊艳。随后,又因直观地反映出东莞扫黄后的人流迁移态势再大热一把。这种炫酷的迁徙地图可视化形式,直观又形象,科技感十足,赢得哇声一片。 作图思路 迁徙射线可用散点图绘制,迁徙数量可用气…

    2015-11-25
    0
  • 提高APP用户参与度的4个有效策略

    为什么用户参与度很重要?

    2017-07-28
    0
  • 你费那么大劲做的数据分析,有用吗?

    很久之前,你我都曾经做过物理题。记得那时老师经常唠叨,“先认真审题,理解题意,然后再想方法,最后再落笔去做”;“审题啊!审题啊!说过几遍怎么就是不听,寻思鹰呢?” 理解当年老师的良苦用心,历经磨难,你我也都顺利结束了学业,不必再审题、不必再做题、不必再考试。然而,人生不如意十之八九,你我又再次走上了数据分析的道路。 转换为现在的视角。我们做数据分析的目的,是…

    2016-07-02
    0
关注我们
关注我们
分享本页
返回顶部