人工智能/机器学习知多少?

从在智力竞赛节目和围棋人机大战战胜人类，到推送广告时表现出种族偏见而备受抨击，我们似乎已经进入了人工智能发展步伐迅速加快的时代。但就目前而言，我们还无法让机器具有完整的感知能力，使其电子“大脑”通过合理的道德判断，完成复杂的认知任务。

当前的发展走向让人们对人工智能的未来普遍生出了畏惧之心。这种情绪近来在流行文化中的表达显示出了我们对这项技术有多么谨慎和悲观。问题在于，畏惧可能产生严重后果，有时更会成为无知的温床。了解人工智能的内在机制是缓解这些忧虑情绪的良方，有助于人们负责、放心地参与其中。

人工智能的核心基础是机器学习，一种巧妙且相当普及的工具。但想要了解机器学习，我们需要先弄清楚机器学习为什么利大于弊。

数据是关键

简单来说，机器学习是指教电脑如何分析数据，通过算法来解决特定的任务。例如，就手写识别而言，分类算法会根据人的笔迹辨认文字。住房数据集则会利用回归算法，以可量化的方式估算房产的卖价。

于是，机器学习便要归结到数据上来。几乎每一家企业都在以某种方式生成数据，比如市场调研、社交媒体、学校调查和自动化系统。机器学习程序试图在看似杂乱无章的庞大数据集中找到隐藏的模式和关联，建立可以预测行为的模型。

数据有两个重要因素，即样本和特性。前者代表了群体中的个体因素；后者则是个体因素共有的特点。

以社交媒体为例。用户就是样本，他们的使用习惯则是特性。比如，Facebook就把“点赞”活动的不同方面（不同用户各有不同）作为投放用户定向广告所依据的重要特性。

Facebook好友也可以作为样本，他们与其他人的连接则是特性，从而建立起一个人际网络，可以用来研究信息的传播。

Facebook好友网络：每个节点是一位好友，他与其他好友相连或者不相连。节点越大，说明连接越多。同样的颜色表示同样的社交圈。

除了社交媒体以外，在工业化作业中用作为监控工具的自动化系统，则把整个作业的时间快照作为样本，特定时刻的传感器测量值作为特性。如此，系统便可实时检测作业中的异常现象。

所有这些不同的解决方案都要靠向机器输入数据和教它们在策略性地评估过给定信息后自行作出预测来实现。这就是机器学习。

以人类智能作为出发点

任何数据都可以转换成简单的概念，包括人工智能在内的任何机器学习程序则会将这些概念作为自身的基石。

完成对数据的解读后，就要决定如何运用得到的这些信息。分类就是一种最常见、最直观的机器学习程序。系统会学习如何根据参照数据集把数据分成不同的类别。

这种程序能让人直接联想到我们每天所作的各种决策，不管是给产品分类（比如哪些是厨具，哪些是美容产品），还是根据以往经验选择观看哪部影片。这两个例子或许看似完全无关，但它们都依赖于分类的一个基本假设：被定义为既定类别的预测。

例如，在拿起一瓶保湿霜时，我们会根据特定的一组特性（比如容器的形状或者产品的气味），准确预测它是美容产品。同样的策略也适用于电影的选择，通过评估一组特性（比如导演或者演员），预测电影属于两个类别中的哪一个：好看或者不好看。

通过了解样本特性之间的不同关系，我们可以预测电影是不是值得观看，甚至可以开发出一款计算机程序，替我们作出预测。

但想要掌握这些信息，我们就需要一位数据科学专家，他必须精通数学和统计学，并且拥有娴熟的编程技能，对不对？其实未必如此。

我们都对自己的母语非常了解，足以应对日常生活，但其中只有少数人才学过语言学和文学。数学也是如此，它始终伴随我们左右，买东西时计算找零金额或者根据食谱衡量食材，都不是什么难事。同理，无需精通机器学习技术，也照样能有效地使用它。

没错，世间确实有那种造诣深厚的专家级数据科学家，但只要下点功夫，任何人都能掌握这方面的基础知识，改进自己理解和利用信息的方式。

将所有设计思路转换为算法

再说回分类算法。假设有一种分类算法能模仿我们作决策的方式。我们是社会性动物，不如就以社交来往为例？第一印象很重要，我们心里都有一个模型，在和某人相遇的最初几分钟里，用来判断我们喜不喜欢他。

这可能产生两个结果：好印象或者坏印象。对每一个人，我们都会根据已有的几次相遇（样本），考虑（哪怕是潜意识地）不同的特点（特性），无论是声调、外向性、整体态度还是礼节表现。

对于我们遇到的每一个陌生人，我们心里的那个模型都会把上述特征作为输入数据，并据此作出预测。我们可以把这个建模过程分解成一组输入数据，按照它们与最终结果的相关性确定其权重。

对有些人来说，吸引力很重要，而对其他人来说，幽默感或者喜欢狗更重要。每个人都有自己的模型，完全取决于自身的经历，或者说数据。

不同的数据会产生不同的模型，得出不同的结果。我们的大脑机制会自行确定这些因素的权重，虽然我们对于这套机制的具体原理还不是完全明了。

机器学习所做的，就是建立严格的数学方法，让机器可以计算出相应的结果，尤其是在我们无法轻松处理大量数据的情况下。现在，数据比以往任何时候都要多，既然拥有主动利用这些数据来解决实际问题的工具，比如人工智能，我们所有人就都应该去了解和使用它。这不仅是为了创建有用的应用，也是为了让机器学习和人工智能不再令人不安。

这并不是说，我们应该对“机器具备类人思维”这样的概念放任自流。但更多地了解人工智能的内在机制，会让我们能够掌握实现良性改变的主动权，让我们可以控制人工智能，而不是反过来被人工智能控制。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。