一篇文章告诉你机器学习的发展史

摘要:最近,我们听到了关于机器学习的很多新闻,这部分是由不断增长的需求和缺少数据科学家们所激发的。但像许多创新一样,机器学习并不是简单出现的 ,它至少发展了二十年。在这篇文章中,我们简要地回顾一下这段历史。

一篇文章告诉你机器学习的发展史

在成功地推出Unica系列营销自动化软件之前,这家公司的主要业务是通过特别关注神经网络进而进行预测分析。1995年,Unica介绍了Pattern Recognition Workbench (简称PRW,一种数据挖掘工具),一个使用自动网格搜索优化模型的神经网络优化软件包。三年后,Unica与Group 1 Software(现在由Pitney Bowes公司拥有)在市场上推出Model 1,这是一个自动选取超过4种不同预测模型的工具。更名几次之后,原始的Pattern Recognition Workbench (PRW)仍然作为IBM 的预测工具,作为IBM企业营销管理套件的一部分出售。

其他两个商业尝试自动预测模型是从上世纪90年代末开始的。

MarketSwitch,提供市场营销优化的解决方案,其中包括嵌入式的“自动化”的预测建模能力。在销售推介会上,MarketSwitch关于他如何优化工作的信息提供得很少。然而,他们宣扬这是“前苏联火箭科学家”背后的技术,并承诺客户,有了这个他们可以“解雇他们的SAS程序员”了。益百利(一家信息技术有限公司)在2004年收购了Market Switch,通过他的自身的服务外包分析,重新定位了产品作为决策工具和自动建模能力。

KXEN,1998年在法国成立的一家公司,围绕着自动建模技术建立了自己的分析工具,还宣称结构风险最小化(具体请点http://www.svms.org/srm/)。原来的产品有一个基本的用户界面,依靠于合作伙伴应用程序的生产出相反的API。最近,KXEN把自己定位为易于使用又能提供市场营销分析解决方案,并试图直接销售给公司高管。 在这方面的努力是非常成功的,SAP(卫星自动控制系统)在2013年大概卖出了4000万美元。

Market Switch和KXEN在反对传统预测分析上取得了一些小进展。首先,通过定义它的狭小去“解决”问题,限制优化的范围到几个算法,把建设工程的质量和坚固性的花费减少到最小。其次,通过定位他们的工具就可以不需要专家来进行分析,他们疏远了在客户组织中非常了解他们的产品甚至于可以成为他们冠军的人。

在过去的几年中,领先的分析软件供应商(SAS和SPSS)在他们的高端产品中增加了自动建模功能。2010年,SAS介绍SAS Rapid Modeler(SAS快速建模功能),附加到了SAS的Enterprise Miner。快速建模是一套宏实施启发式处理任务,如离群点识别、缺失值处理、变量选择和模型选择。用户指定了一个数据集和响应措施;快速建模确定回应是连续的还是分类的,并利用这些信息与其他的诊断一起去测试测试一系列建模技术。用户可以通过选择初级、中级或高级方法来控制技术的范围。(SAS最近将这个产品作为SAS Factory Miner)。

IBM SPSS Modeler包括一套自动准备数据功能以及自动分类、自动聚类、自动数字节点功能。自动准备数据功能执行这样的任务作为缺失值处理,异常处理,日期和时间的准备,基本价值筛选、分级和可变的重铸。三个建模节点可以实现用户指定的技术可以被运用于包括测试计划在内的,指定的模型选择规则和在模型训练集中设置限制等功能。

4至今为止所有讨论的软件产品都是商业许可的,反映了机器学习社区的方向是为了开源软件。在社区项目中的机器自动化学习取得最具创新性的发展并不让人觉得稀奇,三个项目值得特别提及:Caret, Auto-WEKA和AutoML。

在开放资源的R语言的插入包中插入一套包括旨在加速模型规范和广泛的技术调整生产力工具。该包包括预处理工具,可以支持虚拟编码,零方差预测,识别相关的预测因子等诸如此类的任务,还可以支持模型训练和调整。在当前插入的训练功能可以支持192种不同的建模技术,它可以通过选定的技术来达到参数最优化,但不优化跨技术。用多个建模技术实现测试计划,用户必须编写一个R语言的脚本来运行所需的训练任务并捕获结果。

注释:

caret:插入包(简称分类和回归训练)是一套旨在简化创建预测模型中的功能。该软件包中包含的工具:数据分割,预处理,特征选择,基于重采样的模型调整,变量重要性估计以及其他功能。

Auto-WEKA是另一个开放资源的机器自动化学习的项目。2013首次发布,Auto-WEKA是一个合作的项目,由英属哥伦比亚大学和弗莱堡大学的四位研究人员驱动。在目前的版本中,Auto-WEKA只支持自动分类问题。该软件从39个可用的算法中选择一个学习算法,包括2种集成方法、10个元方法和27个基分类器。由于每个分类有许多可能的参数设置,搜索空间是非常大的,开发人员用贝叶斯优化来解决这个问题。

CHALEARN是一个由美国国家科学基金会和商业赞助支持的免税组织。CHALEARN举办一年一度的automl挑战,旨在开发自动化机器的回归和分类学习的软件。最近的一次会议是2015年7月在法国的里尔举行的,会议演示了机器自动化学习的最新发展,还举办了一个活动。

想要看最新进展,请点击这里:https://indico.lal.in2p3.fr/event/2914/

5随着机器自动化学习的成熟,我们描述的能力也有了转变。早期的商业产品如MarketSwitch和KXEN声称可以消除专家,但我们现在认为机器自动化学习系统的作为一种生产力工具,能让专家更有效。例如,机器人手术,并不排除对心脏病专家的需要;它使心脏病学家集中更多的精力在诊断和病人护理上。类似的,自动机器学习并没有消除专家分析,它还可以使专家专注于理解业务问题,并解释结果,真正的价值驱动高级分析的实现。

原文链接:https://www.datarobot.com/blog/automated-machine-learning-short-history/

来源:数据客 翻译:蔡玲

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2016-04-01
下一篇 2016-04-13

相关文章

  • 技术红颜告诉你大数据分析的真谛:别只盯着我的钱!

    大数据时代已经到来,每个企业都开始忙着数据挖掘,忙着数据分析,忙着构建各种算法模型。但为什么你无法引发“技术红颜”式的蝴蝶效应?为什么你眼中对用户的“精准推荐”,成了Ta备感厌烦的“精准骚扰”?

    2016-05-09
    0
  • 线上AI僚机,告诉你对方喜好,手把手教你如何正确约会

    想要完成一次成功的约会?一个好的僚机(wingman)必不可少。

    2019-08-18
    0
  • 征信业必将大有可为?从拒绝推断说起

    看到这个题目,你可能想问:“拒绝推断”是什么?这样专业的术语,与征信业又有什么关系?本周,我们从一个模型的改进方案出发,向你展示完善的征信体系的重要性。

    2016-06-15
    0
  • 产品策略研究期的数据分析与挖掘

    摘要:《大嘴巴漫谈数据挖掘》系统而全面地描述了数据挖掘的基本概念、常用算法等。《大嘴巴漫谈数据挖掘(第2季产品篇)》是《大嘴巴漫谈数据挖掘》的姊妹篇,在前作的基础上,它以产品为核心,按照产品发展的过程,依次详细分析产品策略研究期、产品概念评估期、产品研发期、产品测试期、产品导入期、产品发展期、产品成熟期、产品衰退期这8个产品发展的必经阶段所必须做的数据挖掘工…

    2016-04-18
    0
  • 什么是社会媒体挖掘?

    What is 社会媒体挖掘 把玩社会媒体数据就称为社会媒体挖掘,比方以某种方式展现社会媒体数据,比方分析社会媒体数据的内里含义,又比方从数据中深挖总结抽象模式以指导其他应用。 社会媒体 基于Web 2.0的思想和技术的互联网应用,支持用户创造和交换内容。 好抽象,举个例子。 红圈圈内的都是社会媒体,你日日光顾的微信肯定是,当然远不止这些。 社会媒体数据 用…

    2015-12-06
    0
关注我们
关注我们
分享本页
返回顶部