机器学习傻瓜指南

作者：mylxiaoyi

成为2级新手

我第一次在工作中遇到实际的机器学习应用。我们要准备一个识别Zooplus商店中欺诈行为的应用。在经过几个月尝试了不同的解决方案之后：外部提供者，在代码中额外的if语句，灭火脚本等诸如此类，我们最终得到机器学习是最适合该工作的结论。自此以后，我们试着说服周围的人投资我们的教育并继续机器学习之路，但是并没有引人关注的成功。然而偶然的一个机会，我通过尝试Amazon的机器学习功能迈出了我的第一步，因而我认为自己是一个2级新手。在本文中，我会尝试向你 — 1级新手 — 展示如何迈出第一步，并切实地感受什么是机器学习。

什么是机器学习？

在互联网上，也许有成百上千的机器学习的定义。但是，我是初级的傻瓜，我们希望得到一些简单的东西——一些傻瓜式的东西！让我们一起来解决这个问题吧。

术语中的“机器”可能指的是计算机。我们可以想到计算机，无人驾驶飞机和其他东西，但是他们是由计算机控制的，对么？所以，机器学习是关于“计算机学习”的。

学习实际上是指的什么呢？计算机并没有大脑！没有神经元的激活，没有路径的创建。它能做的所有只是存储一些数据和进行一些操作。但是我们知道它是和数据有关的，而且是大数据（至少DZone是这么说明的）。所以我们有“关于大数据的计算机处理”。

那么，“处理”指的是什么呢？作为2级新手，我可以大概讲解一下（不过我敢打赌，真正的从业人员会认为我说的话一点也不正派）。我所说的，就是利用1级新手和2级新手不想知道的高级算法进行统计分析。

我想，这样就足以形成我们在这篇文章中给机器学习定下的最终定义：“电脑对大数据进行统计分析”。够酷吧？

机器学习有什么用？

我懂，我懂。读了这么多，你还是不晓得这一切关于机器学习的知识到底有什么用。作为2级新手，我要再次说一下，我有了一个学习机器学习的机会。

有两种机器学习：监督与非监督。

监督学习

我非常希望给出监督孩子的类比，但是我并不能够。是谁发明的这个名字？！

监督学习是当你为计算机提供你期望查找的信息时，-还记得我工作识别欺诈行为的例子吗？那就是监督学习。-我告诉计算机：我希望知道这个客户是否是一个欺诈者！而计算机器执行其高级魔法并给出答案：是的，主人！或者，不是，主人！他是一个笨蛋，但是普通的一个。通常，监督学习用于所谓的分类问题中。你为计算机提供大量的数据，而它进行分类：美国人是否会再次投票给 Mr. Trump ？这个人是否得了癌症？你是否会继续阅读这篇长而有趣的文章？

非监督学习

非监督学习是你并不清楚你正在寻找什么时，你毫无思路，你告诉计算机：这里有一堆数据！找出一些有趣的内容来。而它会执行比监督学习中所用的更为高级的算法。

因为我们并不是毫无头绪-我们确切地知道我们需要什么(而且我们对更为高级的算法并不感兴趣)，在接下来的部分我们会专注于监督ML。

Amazon ML简介

在不久以前，对于你和我这样的新手接触机器学习非常困难。它是整天思考数字并且认为Scala与Python是好的编程语言的书呆子们的游戏。多亏了Amazon，精于销售的这帮家伙开始卖他们自己的基础设施，并且为我们提供了伟大的工具：Amazon机器学习。

创建数据源

我们拥有超过600个文本单词，所以我们最好直接进入工作。打开你的Amazon Web控制面板并找到“机器学习”按钮。点击！你会看到一些为你提供教程之类内容的屏幕。忽略它！你不需要新手教程，因为你已经在新手教程的中间部分了。你应该看到如下内容：

所以，在大数据上执行计算统计分析的第一步将是提供真正的大数据。使用下面的链接下载文件并将其放入S3桶中：

https://s3.amazonaws.com/aml-sample-data/banking.csv

(是的，我们正在使用AWS文档教程所提供的数据。只是这个教程相对更好！)

你一旦完成，你可以返回机器学习屏幕并选择 “Create new…” ，然后选择 “Datasource”. 你应该可以看到如下内容：

Insert the S3 location and choose a Datasource name. 名字无所谓。 (最终我们会将其删除), 所以你可以为其指定任意名字。完成后点击 “Verify” 并选择 “Continue”.

你应该可以看到类似如下的屏幕内容：

正如你看到的，Amazon通过将数据分割为不同的数据类型试图使该数据更为合理。因为这是他们的新手教程数据，所有内容都应该更为平滑。你只需要对列名相关的问题点击 “Yes” ，如果一切顺利，最后一页命名为 “y” 应该是 “Binary” 类型。如果正是这种情况，点击 “Continue”；否则，我不知道 – 我只是一个2级新手。

在第三页，Amazon最终会询问我们真正希望得到什么样的魔法结果。那正是 “Target” 。在如下的屏幕中选择最后一列：

正如你看到的，Amazon将其识别为一个二分类问题，这意味着我们现在是监督者了！点击 “Continue”。

我们的数据并不包含标识符，所以点击 “Review” 并选择 “Create Datasource”。他需要一段时间直到创建完成。一旦完成，你应该看到如下内容：

我们完成了数据源！在系统中我们拥有我们的大数据了！

有了上千的单词，我们已为了最重要的部分做好了准备。我们将会创建实际的统计分析部分。ML模型是我们的超酷的机器学习解决方案的大脑。它是由Amazon基于我们的大数据与设置所创造的神奇生物，可以为所提供的数据预测列 “y” 的值。让我们开始吧！

回到机器学习面板，再一次选择 “Create new…” 然后选择 “ML Model”。选择我们新创建的数据源。我们应该看到类似如下的内容：

点击 “Continue” 然后选择 “Review” 与 “Create ML Model”. 我们并不希望修改任何高级设置。记住，我们仅是1级与2级的新手；我们仅是希望可以看到一切可以正常工作。

一段时间后按F5刷新，我们应该看到成功界面（如下所示）。我们的ML模型已成功创建！

创建预测

如果我们创建了我们解决方案的神奇大脑而不预测任何事情，那我们会感到遗憾。由ML模型成功界面的左边选择 “Try real-time predictions” 。点击 “Paste a record” 按钮并粘贴如下内容：

32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1

该行与我们的大数据文件具有相同的格式，但是缺少最后一列 – “y” 。这正是我们的神奇ML模型将要预测的内容。如果已为惊奇做好准备，点击 “Create prediction” 。

Yes, yes, yes! 它起作用了！它预测了！如果你正确地做了我告诉你的所有事情，你预测屏幕的右边应是类似如下的内容：

“Predicted label” 是我们预测的结果 – 惊人的 0！正是它！

清理

确保由S3桶中删除数据，从而你不会为存储支付费用。你可以由你的帐户中删除机器学习，这取决于你，因为它不会花费任何费用。

总结

我们由给出一个糟糕的机器学习定义开始。然后，我们学习监督机器学习与非监督机器学习之间的区别。最后，我们通过Amazon机器学习接口创建了一个简单的预测。现在你也许想要知道的是：我们预测了什么？我们在那里放置的是什么数据？如果它没有起作用该怎么办？目前，这些无所谓。它仅是一个例子。现在重要的是，我的2级新手是你希望预测什么？你有什么可以利用的数据？以及为使其起作用你可以做什么？在下面我会为你提供一些资源，祝你在成长为3级的道路上好运！

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。