大数据精选
-
一秒钟看穿统计陷阱
摘要:正所谓“流氓懂科学,谁也挡不住”。 如今越来越多的复杂统计数据像潮水般向我们涌来,一批又一批的调查结果,都显得那么铿锵有力,似乎那就是客观事实。 统计陷阱被科学流氓们包装的越发完美,一不小心就把我们忽悠了。该怎么办呢别急,且看死理性派现身说法,帮大家理清真相。 抽样调查,想说无偏不容易 调查问…
-
Hadley Wickham:一个改变了R的人
Hadley Wickham 是 RStudio 的首席科学家以及 Rice University 统计系的助理教授。他是著名图形可视化软件包ggplot2的开发者,以及其他许多被广泛使用的软件包的作者,代表作品如plyr、reshape2等。 通过数据从根本上了解世界真的是一件非常,非常酷的事情。…
-
谷歌邮件智能回复系统:基于循环神经网络构建
摘要:Google推出智能回复是使用深度神经网络训练的撰写email的功能。智能回复系统建立在一对循环神经网络之上,其中一个RNN用于对收到的电子邮件进行编码,而另一个用于预测可能的回复。至今为止,这项功能表现特别出色。 Google将为其Gmail应用推出一项称为智能回复(SmartReply)的…
-
用算法揭示玛雅文字的奥秘
瑞士洛桑联邦理工学院(EPFL)的研究人员们研究出了一种可以分析玛雅文字的算法。这一项目终有一天能够在翻译这种复杂且神秘的语言中做出巨大贡献。 虽然在南美洲有五百多万人正在使用一种由玛雅文化演变而来的口语,但玛雅文字却经历了截然不同的命运。西班牙16世纪的征服之举导致大部分玛雅文字作品流失,玛雅文字…
-
如何让Hadoop结合R语言做大数据分析?
【编者按】R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑…
-
10个值得反思的大数据故事
摘要:随着各种技术发展,很多人都在吹捧大数据。然而如同股市一样,越是高涨,越是需要警醒,在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远。本文的10个小故事,或许能让你有所得。 自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算…
-
如何通过数据分析来抢火车票?
摘要:2016年春运图定列车的火车票自2015年11月26日起开始发售,其中互联网、手机客户端、电话订票渠道的预售期为60天,车站窗口、代售点、自动售票机渠道的预售期为58天。 一年一度的春运又开始啦!!!想在网上抢到热门车次的春运车票,基本得靠“鹰的眼睛”和“豹的速度”。如何能求得一票呢,小编决定…
-
Python实现抓取城市的PM2.5浓度和排名
主机环境:(Python2.7.9/Win8_32/bs4) 利用BeautifulSoup4来爬取WWW.pm2.9.Com上的PM2.5统计数据,之所以抓取这个网址,是因为上面有城市PM2.5浓度值排名(其实真正的原因是,它是百度搜PM2.5出来的第一个网站!) 程序流程里只对比了2个城市,所以…
-
滴滴牵手北交大 建共享交通大数据研究中心
摘要:12月22日消息,北京交通大学宣布与滴滴出行达成战略合作,共建“北京交通大学滴滴共享交通大数据研究中心”,以期通过大数据分析及整合,以研究应用为核心,建立大数据智慧分享平台。 原标题:北交大与滴滴达成合作 建共享交通大数据研究中心 12月22日消息,北京交通大学宣布与滴滴出行达成战略合作,共建…
-
博客虫:你们是不是很缺大数据工程师?
摘要:说起大数据,有个成语可以来形容一下它的现状:遍地开花! 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当…
-
交互设计师如何培养数据分析的能力?
摘要:面对一大堆看似杂乱的数据,如何进行信息提取与数据加工,从中获取自己想要的信息,并应用这些信息,有理有据的进行需求的讨论、最终设计决策的推进,这是每一个交互设计师必修的课程。 在我看来,数据分析是很难的。利用你当下有限的数据资源(大多数数据往往掌握在产品经理、运营手上)去整理、分析并得出结果。 …
-
数据告诉你:在“北上广”打拼是怎样一种体验?
摘要:到“北上广”等大都市去闯荡、打拼,是很多年轻人的梦想。即便是在高房价、高物价、交通拥堵、空气污染下被迫离开的人,也有相当一部分重新回来。这些远离亲人,选择面对生活的艰苦和孤独的年轻人,究竟是怎样的群体,又过着什么样的生活通过百科君的数据,你或许能了解一二。 北上广的“飘”们都来自哪里 根据卫计…
-
MIT开发出深度学习算法:可计算图片难忘指数
据外媒报道,近日,MIT的计算机科学家开发出了一套全新的算法–MemNet,它能够判断出照片中最令人们印象深刻的部分。该套算法利用人工智能技术在照片中制作出视觉热度图。像MemNet等这样的深度学习算法通过人类训练的方式达到完成复杂解析的目的,并且随着不断的累积,它还会变的更加“聪明”,…
-
机器学习,为何让数学家大惑不解?
摘要:这篇文章原刊登于《量子杂志》(Quanta Magazine),分析了机器学习在大数据中的一些数学原理和问题,作者Ingrid Daubechies是杜克大学数学、电子和计算机工程系的教授。《量子杂志》是由西蒙斯基金会独立编辑出版的一本杂志,旨在向公众介绍数学、物理和生命科学方面的最新进展。…
-
数据可视化的前生今世
前言:纵观现代可视化技术,我们看到了极简主义。在数字化的世界,所有的资源只需点击几下鼠标,就能将手中大量的信息简单呈现。但是,我们不是碰巧才做到这些的,这得感谢那些勇于创新的前辈们。正所谓“前人栽树,后人乘凉”,我们站在了他们的肩膀上,才有了今天比较炫酷的可视化技术。 Anaximander在公元前…