机器学习
-
硅谷王川:深度学习有多深?学了究竟有几分?(4)
(1)九十年代末, 神经网络研究遇到的困境,除了慢,还是慢. 抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题). 这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因. 简单的说, 就是成本函数 (cost fu…
-
面试干货!21个必知数据科学面试题和答案part2(12-21)
摘要:这里是第二部分,就从我给大家准备的“特别提问”开始吧。作者Gregory Piatetsky,KDnuggets. 特别提问:解释什么是过拟合,你如何控制它 这个问题不是20问里面的,但是可能是最关键的一问来帮助你分辨真假数据科学家! 回答者:GregoryPiatetsky 过拟合是指(机器)学习到了因偶然造成并且不能被后续研究复制的的虚假结果。 我…
-
机器学习评价指标大汇总
在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。 一、分类 1. 精确率与召回率 精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Recall)指的是所有正样本有多少被模型判为正样本,即召回。设模型输出的正样本集合为A,真正的正样本集合为B…
-
微信红包的随机算法是怎样实现的?
摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoneyPackage数据结构如下: 测试时初始化相关数据是: 测试…
-
硅谷王川:深度学习有多深?学了究竟有几分?(3)
(1)1992 年笔者在纽约州的罗切斯特大学选修计算机课的时候, 学到这样一句话, 印象极为深刻. When in doubt, use brute force. “如果遇到困惑(的问题), 就使用蛮力. “ 此话出自当年 UNIX 系统的发明人之一 Ken Thompson. 他的本意是, 程序设计中,简单粗暴的计算方法, 虽然可能…
-
【R】如何确定最适合数据集的机器学习算法
摘要:抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。本文中我将介绍八个常用于抽查的机器学习算法,文中还包括各个算法的 R 语言代码,你可以将其保存并运用到下一个机器学习项目中。 适用于你的数据集的最佳算法 你无法在建模前就知道哪个算法最适用于你的数据集。你必须通过反复试验的方法来寻找出可以解决你的问题的最佳算法,我称…
-
机器学习大事记:66年机器学习发展进程
「机器人会梦见电子羊吗?」仍不失为一个好问题(译者注:《机器人会梦见电子羊吗?》(Do Androids Dream of Electric Sheep)为菲利普·迪克所著科幻小说,电影《银翼杀手》根据该小说改编而成),但是科学事实已经发展到开始与科幻小说相吻合的程度了。不,我们(目前)还没有造出挣扎于生存危机的自主机器人,但是我们距离人们所谓的「人工智能」…
-
以性别预测为例,谈谈数据挖掘中的分类问题
摘要:互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。 数据挖掘的基本内容 首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下: Data mining is the use o…
-
融资1000万!他们是世界数据大赛冠军,已为15家企业提供数据挖掘应用服务
前几年,外界关于大数据的讨论沸沸扬扬。不过在陈运文(以下简称陈)看来,这些讨论雷声大雨点小,落实到应用层面的并不多。 那个时候,陈还是盛大创新院的成员,在院长陈大年的召集下,这里聚集了众多陈景仰的计算机人才,如潘爱民、陆坚博士等。在创新院里,负责数据挖掘的他还结识了许式伟、季昕华、黄伟等技术牛人。 进入2015年以后,有一段时间,生活安逸的陈觉得有些彷徨。与…
-
如何做好数据挖掘与数据建模的9条经验总结
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的…
-
数据杂谈
摘要:记得几年前,曾经有人预测过未来最流行的三大技术:大数据、高并发、数据挖掘。到现在来看,这三种技术的确也随着这几年互联网的发展变得越发成熟和可靠。掌握这三种技术的人,不管是求职还是创业,都属于香饽饽。 一个很深的印象就是当年研究生毕业的时候,专业是数据挖掘、大数据的学生都比较受各种企业的青睐,不管他是不是真的掌握了这些东西。虽然我对大部分高校的相关专业持…
-
为什么会有深度学习?如何看待?
摘要:最近,深度学习成为一个流行语。有分析人士称,它会吞噬掉目前已知的其他机器学习(ML)方法。其他人则将深度学习的市场形容为一个金矿,称该技术有望取代整个行业和应用的大量人力干预。在本文,我试着简化深度学习的概念,并对其未来在 ML 生态系统的发展做了一些观察。 有趣的是,深度学习的概念并不是新出现的。它只不过是一个扩展的人工神经网络(ANN)算法,在90…
-
空间数据挖掘认识及其思考
摘 要: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。 0 引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开…
-
利用Python,四步掌握机器学习
摘要:为了理解和应用机器学习技术,你需要学习Python或者R。这两者都是与C、Java、PHP相类似的编程语言。但是,因为Python与R都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据,Python的优势在于它适用于许多其他的问题。因为Python拥有更广阔的分布(使用Jan…
-
【译文】人工智能的今天
人工智能早在计算机学伊始时就已经产生,它最早是在1956年被作为一门学术学科建立起来。从那时起,科学界就认为每个十年左右就会在此方面有大的突破性进展。在1940年的神经学研究中,人们就已经发现人类的大脑实际上就是一条神经网络,AlanTuring表示基于此概念,建造一个电子大脑是可行的。1951年,一个24岁的研究生,MarvinMinsky建造了世界第一个…