K-Means是聚类算法的一种,以距离来判断数据点间的相似度并对数据进行聚类。前面的文章中我们介绍过K-Means聚类算法的原理及实现。本篇文章使用scikit-learn库对数据进行聚类分析。
准备工作
开始之前先导入要使用的各种库文件,首先是scikit-learn库,然后是数值计算numpy和科学计算pandas库,以及用于绘制图表的matplotlib库文件。
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
读取并查看数据表
读取用于聚类的数据并创建名为loan_data的数据表,用于后续的聚类分析。
#读取用于聚类的数据,并创建数据表
loan_data=pd.DataFrame(pd.read_csv(‘loan_data.csv’,header=0))
#查看数据表
loan_data.head()
#查看表中的各列的名称
loan_data.columns
Index([‘member_id’, ‘loan_amnt’, ‘term’, ‘grade’, ’emp_length’, ‘annual_inc’,
‘issue_d’, ‘loan_status’, ‘total_pymnt_inv’, ‘total_rec_int’], dtype=’object’)
我们对数据表中的贷款金额和用户年收入进行聚类,这里先绘制两个维度的散点图,观察分布情况并与后续的聚类结果进行对比。
#绘制散点图
plt.rc(‘font’, family=’STXihei’, size=10)
plt.scatter(loan_data[‘loan_amnt’],loan_data[‘annual_inc’],50,color=’blue’,marker=’+’,linewidth=2,alpha=0.8)
plt.xlabel(‘贷款金额’)
plt.ylabel(‘年收入’)
plt.xlim(0,25000)
plt.grid(color=’#95a5a6′,linestyle=’–‘, linewidth=1,axis=’both’,alpha=0.4)
plt.show()
K-Means聚类
我们数据表中的贷款金额和用户年收入两个维度进行聚类,这里先对数据进行预处理,然后设置类别数量。
#设置要进行聚类的字段
loan = np.array(loan_data[[‘loan_amnt’,’annual_inc’]])
#设置类别为3
clf=KMeans(n_clusters=3)
#将数据代入到聚类模型中
clf=clf.fit(loan)
聚类结果将数据分析三类,第一类的均值是贷款金额8754,年收入88853。第二类的均值是贷款金额4596,年收入22406。第三类的均值是贷款金额9168,年收入46870。换个角度来看,第一个类的用户属于贷款金额高,年收入也较高的一群人。第二个类别的用户属于贷款金额较低,年收入也较低的一群人。第三个类别的用户则属于贷款金额高,年收入居中的一群人。
#查看聚类结果
clf.cluster_centers_
array([[ 8754.54545455, 88853.19909091],
[ 4596.875 , 22406.5 ],
[ 9168.18181818, 46870.72727273]])
假设这时我们又有了新的用户数据输入,在原有聚类模型中,新数据贷款金额7000,年收入30000,被分为了第三个类别,贷款金额高,年收入居中的类别。
#测试新数据聚类结果
clf.predict([‘7000′,’30000’])
array([2])
将K-Means模型对原始数据聚类的结果标记在原始数据表中。
#在原始数据表中增加聚类结果标签
loan_data[‘label’]=clf.labels_
查看标记聚类结果的数据表,其中label字段为聚类结果。
#查看数据表
loan_data.head()
为了更加清晰和直观的查看原始数据的聚类结果,我们将聚类结果绘制成散点图,以三种不同颜色标记不同的类别的数据点。
#提取不同类别的数据
loan_data0=loan_data.loc[loan_data[“label”] == 0]
loan_data1=loan_data.loc[loan_data[“label”] == 1]
loan_data2=loan_data.loc[loan_data[“label”] == 2]
#绘制聚类结果的散点图
plt.rc(‘font’, family=’STXihei’, size=10)
plt.scatter(loan_data0[‘loan_amnt’],loan_data0[‘annual_inc’],50,color=’#99CC01′,marker=’+’,linewidth=2,alpha=0.8)
plt.scatter(loan_data1[‘loan_amnt’],loan_data1[‘annual_inc’],50,color=’#FE0000′,marker=’+’,linewidth=2,alpha=0.8)
plt.scatter(loan_data2[‘loan_amnt’],loan_data2[‘annual_inc’],50,color=’#0000FE’,marker=’+’,linewidth=2,alpha=0.8)
plt.xlabel(‘贷款金额’)
plt.ylabel(‘年收入’)
plt.xlim(0,25000)
plt.grid(color=’#95a5a6′,linestyle=’–‘, linewidth=1,axis=’both’,alpha=0.4)
plt.show()
绿色表示第一个类别的用户属于贷款金额居中,年收入较高的一群人。红色第二个类别的用户属于贷款金额较低,年收入也较低的一群人。蓝色表示第三个类别的用户则属于贷款金额高,年收入居中的一群人。
本文为专栏文章,来自:蓝鲸,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/42361.html 。