对数据驱动的自动化机器学习系统的解读

一、导读

本文主要内容是以驾驶行为习惯风险预测模型为例，深度解读一个数据驱动的自动化机器学习系统应该具备的基本功能：模型自我学习的能力。只需生产系统部署一次，避免对于不同的训练数据，重复的训练调优分类器和生产系统再部署。数据挖掘工作的一般流程是（1）了解业务和领域知识，将模糊问题用数据表达；（2）做特征工程，特征选择；（3）模型训练，包括算法实验、参数调优；（4）模型验证，根据实际运营指标值进行验证。数据挖掘的过程好比是盲人摸象，而且这个大象是带翅膀的，即数据是片面的，动态的，带有一定的方差性和偏差性。那么，我们需要设计一个在生产系统部署运行的完全以数据驱动的自动化机器学习系统。下面对驾驶行为习惯风险预测模型的自我学习功能做深度解读。

二、驾驶行为习惯风险预测模型的自我学习功能深度解读

自我学习功能主要表现为以下5点：

1、模型反馈回路。

如下图所示：

我们验证模型的有效性是依据用户实际的出险理赔事实，我们先对用户进行A、B、C、D、E的驾驶行为风险评级，然后，观察用户未来一段时间的出险理赔情况。按照我们模型的假设，评级为A、B、C的用户是优质（合格）的用户，在未来一段时间内不应该或者极少发生出险情况，模型对比A、B、C用户中出险集合和未出险集合的驾驶行为特征，对模型前期用户驾驶行为评分的权重进行调整。这里简单叙述一下这么做的理由。模型的前期先对用户各个驾驶行为特征进行评分，再分别乘以各特征的权重得到总评分。权重是依据出险用户出险时间前后驾驶行为特征值的变化量决定的，变化量越大，权重越大。再依据总评分和是否出险生成优质驾驶行为特征标签和劣质驾驶行为特征标签，作为下一步分类器训练的训练样本。于是，模型构成一个反馈回路之后，会对特征评分的权重进行调整，也就是对总评分调整，也就是对优质和劣质的驾驶行为标签调整，也就是对训练分类器的训练数据进行调整，进而优化分类评级的结果。

2、对分类器的训练具备自我调优能力。

分类器算法参数调优过程如下图所示：

我们模型中驾驶行为风险评级的分类器选择的是基于BP神经网络的雏形，该网络拓扑结构的参数不要写死，要依据不同的训练数据进行选择，可以使用穷举法穷举出网络结构的一些参数，对于各种组合情况进行计算，选取使模型评估指标最优的一组最优解。其中，对于该分类问题，主要的评估指标是准确率和召回率。在训练数据集上训练模型并在测试数据集上测试其效果，这是一条分类器训练和测试的回路。

3、自动识别有效特征。

RBM（限制玻尔兹曼机）提取有效特征网络结构如下图所示：

在训练分类器之前要进行特征工程，我们的模型主要做的是特征选择。样本分析时，依据领域知识提炼出可能与出险相关性较强的十几个驾驶行为特征，但有效特征不明显，也不稳定，这其中的有效特征就需要依据数据来选择了。我们使用RBM（限制玻尔兹曼机）来实现有效特征自动识别功能。RBM是一个无监督的学习过程，本质上是一个编码解码器。RBM网络训练结果作为分类器BP神经网络的初始化参数，使BP神经网络避免因随机初始化网络参数而陷入局部最优或者不收敛和训练时间长的缺点。

4、模型具备自我纠错能力。

我们的预测模型实际上是一个冷启动问题（即没有现成的标记出驾驶行为好和坏标签的训练数据集）。第一步，我们需要建立一个训练样本库，构造带有驾驶行为好和坏标签的训练样本。这里我们是依据驾驶行为总评分和近一年历史出险记录综合判断的，按照领域知识，应该这样定义驾驶行为的好和坏。但是，可能有少部分标签添加的是不准确的，所以模型应具备自我纠错的能力，即将少量标签添加不准确的样本过滤掉。我们使用Adaboost算法的思想，集成若干深度为1的二叉树的弱分类器，迭代更新训练样本的权重。对于经常分错的样本，其权重越来越大，对于经常分对的样本，其权重越来越小。这样通过训练样本的权重大小可以将少量标签添加不准确的样本过滤掉，不作为下一步分类器训练的训练样本。

5、依据数据确定阈值。

模型中的机器学习算法几乎所有的阈值都是依据数据计算的，而不是人为设定的。比如说第4点中训练样本过滤阈值的选取，我们使用线性回归和二叉树结构，遍历样本点，计算目标函数的最小值。目标函数定义为左右子树点集分别使用线性函数进行拟合的残差平方和。目标函数最小值对应的树分裂点即为所求的过滤阈值。再比如说对于重大出险用户的甄别（从评级为E的用户中挑出驾驶风险最高的用户，评级标记为E-）。我们使用的方法是建立用户黑名单样本库，计算评级为的每一用户与黑名单样本库中所有用户的加权欧氏距离，然后根据这个加权欧氏距离判断是否为E- 。该加权欧氏距离阈值的选择是依据近一年出险的历史数据，遍历每一样本，计算二叉树左子树和右子树信息熵之和（信息熵数值越小，纯度越高），取最小值对应的分裂点即为加权欧氏距离的阈值。还有计算二分类器分类的阈值和驾驶行为风险评级A、B、C、D、E分组的组限确定等等，这里不再赘述。简言之，模型中阈值的确定需要使用算法对数据进行遍历计算，选取最优解。

三、总结

我们在数据库中建立了驾驶行为训练样本库、重大出险用户黑名单库、驾驶风险评级结果库和驾驶风险评级结果验证库。每月初定时自动化的运行模型，更新数据，建立一个完全数据驱动的自动化机器学习模型，并且模型具备健壮性和可解释性。今后可以进一步考虑：1、模型预测稳定性的验证；2、驾驶行为特征的扩展（考虑新的特征或将已有不同特征做笛卡尔积产生新的特征等）；3、基于驾驶风险评级结果，研究个性化车险定价模型；4、模型计算效率的提升等等。