机器学习
-
数据分析师会被机器学习和算法取代么?
摘要:数据分析师会被机器学习和算法取代么? 《疑犯追踪》里的那个“机器”,主要工作就是分析人的行为,然后找出一些“目标人员”,再由业务人员去接触。看上去,这个机器完全是代替了数据分析师的工作啊。 抛开美剧里的这种有所夸张的内容,在现实中,当一个数据分析师跟别人聊天的时候,经常会被问一些问题: Q:数据分析人员能做什么? A:从纷繁的数据里提炼出有价值的信息并…
-
谷歌邮件智能回复系统:基于循环神经网络构建
摘要:Google推出智能回复是使用深度神经网络训练的撰写email的功能。智能回复系统建立在一对循环神经网络之上,其中一个RNN用于对收到的电子邮件进行编码,而另一个用于预测可能的回复。至今为止,这项功能表现特别出色。 Google将为其Gmail应用推出一项称为智能回复(SmartReply)的新功能,这篇博文解析了SmartReply的技术原理:建立在…
-
用算法揭示玛雅文字的奥秘
瑞士洛桑联邦理工学院(EPFL)的研究人员们研究出了一种可以分析玛雅文字的算法。这一项目终有一天能够在翻译这种复杂且神秘的语言中做出巨大贡献。 虽然在南美洲有五百多万人正在使用一种由玛雅文化演变而来的口语,但玛雅文字却经历了截然不同的命运。西班牙16世纪的征服之举导致大部分玛雅文字作品流失,玛雅文字的秘密也从此不见天日。到目前为止仅有三本古抄本的玛雅书籍被保…
-
数据挖掘系列篇:在线机器学习FTRL算法介绍
最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块。今天也是有空,赶紧来做个整理。明天还要去上海参加天善智能组织的FLY BI大数据分享会。有兴趣参加线下活动的可以多关注下微博和微信的信息。没事可以多参加分享分享。现在特别是像做在线学习和CTR这块,应用LR是最广泛的。但是批量处理超大规模的数据集和在线数据流时就遇…
-
数据模型需要多少训练数据?
摘要:毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。 训练数据的质量和数量通常是决定一个模型性能…
-
MIT开发出深度学习算法:可计算图片难忘指数
据外媒报道,近日,MIT的计算机科学家开发出了一套全新的算法–MemNet,它能够判断出照片中最令人们印象深刻的部分。该套算法利用人工智能技术在照片中制作出视觉热度图。像MemNet等这样的深度学习算法通过人类训练的方式达到完成复杂解析的目的,并且随着不断的累积,它还会变的更加“聪明”,也能够开始执行需要人类才能完成的任务,甚至还可能优于后者。 …
-
机器学习,为何让数学家大惑不解?
摘要:这篇文章原刊登于《量子杂志》(Quanta Magazine),分析了机器学习在大数据中的一些数学原理和问题,作者Ingrid Daubechies是杜克大学数学、电子和计算机工程系的教授。《量子杂志》是由西蒙斯基金会独立编辑出版的一本杂志,旨在向公众介绍数学、物理和生命科学方面的最新进展。 几年前的一次晚餐上,杰出的微分几何学家 Eugenio C…
-
数据夜话:机器学习的七嘴八舌
其实数据挖掘、机器学习一直在接触,只是没有像今年这样面对这么大的数据量和业务种类。应该来说数据分析也是做了很久,一直对机器学习这块怀揣着敬畏的心情,就像面对“大自然”的力量一样。相信很多包括产品、运营、技术开发的同学都算法这块都是一种觉得很高深的态度,而事实上的确机器学习、算法也很难,从各大招聘渠道信息也可以看得出来,什么硕士、博士,XX名校等。 一方面本身…
-
Google,一个会思考的深度学习系统
“深度学习” 需要用到大型计算机集群来吸收数据(如图片)对其进行自动分类。Google 的 Android 语音控制搜索、图像识别及 Google 翻译等均采用了这项技术。 2012年6月,纽约时报曾报道了 Google 如何通过向 “DistBelief” 提供数百万份 YouTube 视频来让该虚拟神经网络系统学习猫的关键特征。这套系统的创新之处在于,它…
-
有没有主宰世界的主算法?
摘要:算法日益影响着我们的生活,有没有主宰世界的主算法? 算法日益影响着我们的生活。但是在它正常运转的大部分时间里我们却没有留意,只有在算法出问题的时候才注意到它的存在。只有在那时候我们才回想起这个世界对算法—那些统治着我们周围所有计算机的、对人类来说日益费解的规则,是如何的依赖。一旦算法出了问题,我们才会想起自己是多么的脆弱(想想天网)。 Pedro Do…
-
2016年大数据五大趋势预测
摘要:2015即将过去,回顾这一年的技术热点,我们发现在炒糊了的大数据、物联网、云计算、DevOps开发运维之外,机器数据分析已经异军突起,有望成为2016年大数据市场商业价值最大,增长最快的热点。 据市场分析数据,2019年大数据市场规模将高达500亿美元,而机器数据分析(Machine Data Analytics将是增长最快的大数据技术),年符合增长率…
-
数据挖掘系列篇:Netflix机器学习系统的构建经验
有很多很好的介绍机器学习的教科书和课程,,甚至可以学习一些最复杂的特定的方法或算法,理解这些理论是一个非常重要的基础和起点。还有很多构建真实系统的实际问题,你可能闻所未闻。这篇文章将分享一些Netflix多年来构建大型系统放的最重要的教训,Netflix是跨许多国家支持数以百万计的用户规模。(Netflix是在线视频网站,每晚视频流量占据全美互联网流量近1/…
-
有关Python机器学习最好的资料库
神经网络和机器学习在过去几年一直是高科技领域最热门的话题之一。这一点很容易看出,因为它们解决了很多真正有趣的用例,如语音识别、图像识别、甚至是乐曲谱写。本文总结了一些很好的Python机器学习库的清单。
-
机器学习入门学习资料汇总
这篇文章的确很难写,因为我希望它真正地对初学者有帮助。面前放着一张空白的纸,我坐下来问自己一个难题:面对一个对机器学习领域完全陌生的初学者,我该推荐哪些最适合的库,教程,论文及书籍帮助他们入门? 资源的取舍很让人纠结,我不得不努力从一个机器学习的程序员和初学者的角度去思考哪些资源才是最适合他们的。 我为每种类型的资源选出了其中最佳的学习资料。如果你是一个真正…
-
TalkingData数据科学家张夏天:算法是机器学习的核心
日前,TalkingData首席数据科学家 张夏天在参加CSDN年度技术盛宴“SDCC 2015中国软件开发者嘉年华”时接受了CSDN软件研发频道的专访。