使用Python训练SVM模型识别手写体数字

支持向量机SVM(Support Vector Machine)是有监督的分类预测模型，本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。

2016092401

准备工作

手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵，将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作为分类结果。在机器学习sklearn库中已经包含了不同数字的8X8灰度值矩阵，因此我们首先导入sklearn库自带的datasets数据集。然后是交叉验证库，SVM分类算法库，绘制图表库等。

#导入自带数据集

from sklearn import datasets

#导入交叉验证库

from sklearn import cross_validation

#导入SVM分类算法库

from sklearn import svm

#导入图表库

import matplotlib.pyplot as plt

#生成预测结果准确率的混淆矩阵

from sklearn import metrics

读取并查看数字矩阵

从sklearn库自带的datasets数据集中读取数字的8X8矩阵信息并赋值给digits。

1 2	`#读取自带数据集并赋值给digits` `digits` `=` `datasets.load_digits()`

查看其中的数字9可以发现，手写的数字9以64个灰度值保存。从下面的8×8矩阵中很难看出这是数字9。

1 2	`#查看数据集中数字9的矩阵` `digits.data[9]`

2016092402

以灰度值的方式输出手写数字9的图像，可以看出个大概轮廓。这就是经过切割并以灰度保存的手写数字9。它所对应的64个灰度值就是模型的训练集，而真实的数字9是目标分类。我们的模型所要做的就是在已知64个灰度值与每个数字对应关系的情况下，通过对模型进行训练来对新的手写数字对应的真实数字进行分类。

#绘制图表查看数据集中数字9的图像

plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')

plt.title('digits.target[9]')

plt.show()

2016092403

设置模型的特征X和预测目标Y

查看数据集中的分类目标，可以看到一共有10个分类，分布为0-9。我们将这个分类目标赋值给Y，作为模型的预测目标。

1 2	`#数据集中的目标分类` `digits.target`

2016092404

1 2	`#将数据集中的目标赋给Y` `Y=digits.target`

手写数字的64个灰度值作为特征赋值给X，这里需要说明的是64个灰度值是以8×8矩阵的形式保持的，因此我们需要使用reshape函数重新调整矩阵的行列数。这里也就是将8×8的两维数据转换为64×1的一维数据。

#使用reshape函数对矩阵进行转换，并赋值给X

n_samples = len(digits.images)

X = digits.images.reshape((n_samples, 64))

查看特征值X和预测目标Y的行数，共有1797行，也就是说数据集中共有1797个手写数字的图像，64列是经过我们转化后的灰度值。

1 2	`#查看X和Y的行数` `X.shape,Y.shape`

2016092405

将数据分割为训练集和测试集

将1797个手写数字的灰度值采用随机抽样的方法分割为训练集和测试集，其中训练集为60%，测试集为40%。

1 2	`#随机抽取生成训练集和测试集，其中训练集的比例为60%，测试集40%` `X_train, X_test, y_train, y_test` `=` `cross_validation.train_test_split(X, Y, test_size=0.4, random_state=0)`