机器学习
-
用机器学习的方法鉴别红楼梦作者
在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。 项目存放在reality-of-Dream-of-Red-Mansions。 主要原理 每个作者写作都有自己的用词习惯和风格,即使是故意模仿…
-
如何让神经网络把熊猫识别为秃鹫
摘要:本文作者基于论文阅读及实测,以尝试欺骗神经网络的方式,从工具安装到模型训练,逐步解析神经网络及其背后的数学原理。文章还提供了演示代码下载。 神奇的神经网络 当我打开Google Photos并从我的照片中搜索“skyline”时,它找到了我在八月拍摄的这张纽约地平线的照片,而我之前并未对它做过任何标记。 当我搜索‘cathedral’,Google的神…
-
艺术家如何使用机器学习来进行创作?
摘要:艺术家如何使用机器学习来进行创作纽约大学《用于艺术的机器学习》课程讲师Gene Kogan在本文中探讨了这个话题。 今年春季,我将在纽约大学的交互式电信项目(ITP)中教授一门课程——用于艺术的机器学习。因为在科学研究领域之外,大多数人并不了解这一科目,所以我想在这篇文章中对本课程进行一些解释说明,并借此简单勾勒我的计划。 在创意领域,已经有很多老师开…
-
2015年大数据行业的9大关键词
2015年, 大数据 市场的发展迅猛,放眼国际,总体市场规模持续增加,随着人工 智能 、 物联网 的发展,几乎所有人将目光瞄准了“数据”产生的价值。行业厂商Cloudera、DataStax以及DataGravity等大数据公司已经投入大量资金研发相关技术,Hadoop供应商Hortonworks与数据 分析 公司New Relic甚至已经上市。而国内,国家…
-
如何解决机器学习中数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一、数据不平衡 在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果…
-
新手学习:一张图看懂史上最完整的数据分析流程
一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程: 1、业务建模。 2、经验分析。 3、数据准备。 4、数据处理。 5、数据分析与展现。 6、专业报告。 7、持续验证与跟踪。 作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知…
-
机器学习商业应用入门及七个实例
你可能听说过谷歌和Facebook这样的公司如何利用机器学习来开车、识别语音和分类图片。你可能会想,这很酷。但这和你的工作有什么关系呢?好吧,来看看这些公司如何使用机器学习吧。 一家支付处理公司在几十亿次交易中,实时检测到了欺诈行为,每月减少损失达100万美元。 一家汽车保险公司用详细的地理空间数据,预测保险索赔的损失,让他们能够对极端天气对生意的影响进行建…
-
数据,才是机器学习中唯一重要的东西
机器学习领域目前的流行趋势是免费提供软件等产品。科技公司一直提倡建立开源社区,并且非常乐意将其部分代码开源。然而,在过去的一年(2015年)中,机器学习领域的大佬们却将自己完整的代码库贡献出来了:谷歌TensorFlow开源;Facebook也将其经过优化的深度学习模块提供给了开源图书馆Torch;然后,Microsoft推出了免费的分布式机器学习工具包(D…
-
微软亚洲研究院:让计算机学会吟诗作赋
宿建德江 唐 孟浩然 移舟泊烟渚,日暮客愁新。 野旷天低树,江清月近人。 图片来自互联网 格律诗是中国古典诗词的一种,也叫近体诗,特指唐代之后的古诗体。其根据篇章长度不同可分为四句的绝句和八句的律诗,按照每句字数的不同又可分为五言诗和七言诗。格律诗的创作需在规定字数内完成给定主题内容的描述,且包涵特定意境。不仅如此,格律诗还讲究文字优美、押韵,对平仄、轻重音…
-
2016年最值得关注的大数据领域33大预测
引言:2016年大数据领域会发生什么情况考虑到如今在深层神经网络和规范性分析方面取得的进展,你可能觉得这个问题很好回答。而实际上,来自业界的大数据预测大不相同,本文精选出了最值得关注的33个预测,为您开启未知的2016! 数据平民崛起 甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起。该公司称:“虽然复杂的数据统计可能仍局限于数据科学…
-
Polly Mitchell-Guthrie:2016年分析领域5大预测
引言:我所处的位置决定我看世界的角度。从这里望去,2016 年的分析领域令人振奋。有史以来,分析领域从未如此重要、如此有趣。 1. 机器学习在企业生根发芽 机器学习(Machine learning)的历史可以追溯到 1950 年,但直到最近,它都只是精英人才的领域并长期被人忽视。我预言机器学习会就此稳步发展,因为许多大型企业正在接纳机器学习。如今除了研究者…
-
用文本挖掘和机器学习洞悉数据
文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,…
-
大数据/数据挖掘/推荐系统/机器学习相关资源
摘要:分享大数据/数据挖掘/推荐系统等相关资源,小伙伴们还不赶紧收藏起来备用 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资…
-
构建机器学习系统的20个经验教训
数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章,总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐…
-
从机器学习谈起
摘要:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机…