Python
-
史上最全Python数据分析学习路径图
Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。 Python工作环境及基础语法知识了解对于Python基础语法学习部分,学习周期大概为4周,需要…
-
【Python】爬虫+K-means聚类分析电影海报主色调
摘要:每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢? 利用Python爬取海报数据 为了回答这个问题,我们需要分析不同风格电影的海报情况。首先,我们需要构建一个电影海报数据的数据集,因此我利用…
-
R语言 vs Python:数据分析哪家强?
摘要:这篇文章旨在更客观地看待这两门语言。我们会平行使用Python和R分析一个数据集,展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点,而不是猜想。在Dataquest,我们教授两种语言,并认为两者在数据科学工具箱中都占据各自的地位。 我们将会分析一个NBA数据集,包含运动员和他们在2013-2014赛季的表现,可以在这里下载…
-
猎聘网首席数据官单艺:你的客户,价值几何?
摘要:2月23日,GrowingIO公开课邀请猎聘网CDO单艺先生为大家讲解“你的客户,价值几何?”课程,带您一探究竟! 在市场中,每个客户的能给厂家带来的价值并不相同,换言之,客户的价值并不相等。那么如何衡量一个客户(用户)在一段时期内对企业有多大价值?以此来获取、留住优质客户,并针对性促销,提供更精准服务,获得更大商业价值。 1.客户的价值真的都是平等的…
-
利用Python,四步掌握机器学习
摘要:为了理解和应用机器学习技术,你需要学习Python或者R。这两者都是与C、Java、PHP相类似的编程语言。但是,因为Python与R都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据,Python的优势在于它适用于许多其他的问题。因为Python拥有更广阔的分布(使用Jan…
-
实时分析社交媒体数据
摘要:本文为您介绍了如何使用 Spark Streaming 实时分析社交媒体数据,通过创建了一个不停运转的流程序,来演示如何实时获取 Twitter 数据,根据文本和位置来收集推文,并使用了 K 均值算法。 这是一篇关于使用 Spark Streaming 实时分析社交媒体数据的简短教程。 您想知道人们在发微博谈论世界的哪些不同地方吗,是在谈论各大洲还是在…
-
学神之路 —— Python数据科学全攻略
Python菜鸟到Python Kaggler 如果你梦想成为一名数据科学家,或者已然是数据科学家的你想扩展自己的工具库,那么,你找对地方啦。本文旨在为做数据分析的Python人提供一条全方位的学习之路,完整讲述运用Python进行数据分析的所有步骤。当然,如果你已经有了一些知识储备,或者无需掌握全部的内容,可以按照自己的需求做出调整,也欢迎与我们分享你是如…
-
本·拉登的书架:Python文本分析拉登最常念叨什么?
摘要:2015年,美国官方解密了一系列有关本·拉登的文件,其中最引人瞩目的,是美国国家情报总监办公室(The Office of the Director of National Intelligence)在其官网上列出的“本·拉登的书架”。 曝光的这份阅读清单涉及书籍和其他材料400余种。其中包含了已解密的书信等文档103份、公开发表的美国政府文件75份、…
-
LIGO用Python分析引力波数据
美国科学家11日宣布,他们去年9月首次探测到引力波。这一发现印证了物理学大师爱因斯坦100年前的预言。宣布这一发现的,是激光干涉引力波天文台(LIGO)的负责人。 这个机构诞生于上世纪90年代,进行引力波观测已经有近30年。那么观测到的引力波数据的量应该很大,科学家如何对这些数据进行分析?有没有用到Python编程语言? 答案是肯定的。笔者在Github上发…
-
Python之父:为什么Python的索引从零开始?
刚开始学习Python语言的时候,并不是很理解为什么Python列表的索引值是从0开始的,不过却很喜欢列表切片的语法,非常简单、优雅。而最近在翻阅Python之父Guido老爹的Google+发文时,看到了他自己对这个问题的解释。 下面是Guido老爹的回答。 最近有人在Twitter上问我,为什么Python中的索引从0开始(0-based indexin…
-
你用Python做过什么有趣的数据挖掘项目?
本文授权转载自知乎回答-何明科,作者:何明科系一面网络技术有限公司创始人。作者现身说法,用自己的创业历程举例说明:有钱很重要,有趣更重要。 第零步:原点,大数据与价值 大概一年多以前,和几个小伙伴均认同一个趋势:觉得通过技术手段获取网上越来越丰富的数据,并基于这些数据做分析及可视化,必能产生有价值的结果,帮助大家改善生活。(大数据被叫烂了,所以用低调的方式来…
-
别老扯什么Hadoop了,你的数据根本不够大
摘要:你有多少大数据和Hadoop的经验 “你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。 接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。 他们给我一个U盘,里面有…
-
用Python Pandas处理亿级数据
在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据: 硬件环境 CPU:3.5…
-
随机森林入门攻略(内含R、Python代码)
简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是如此的方便实用。 需要大家注意的是,在上文中特别提到的是第一组测试结果,而非所有的结果,这是因为随机森林…
-
如何使用Python创建一个NBA得分图?
摘要:本文意在创建一个得分图,该图同时描绘了从场上不同位置投篮得分的百分比和投篮次数,这和 Austin Clemen 个人网站上的帖子http://www.austinclemens.com/shotcharts/ 类似 。 为了实现这个得分图,笔者参考了 Savvas Tjortjoglou 的帖子http://savvastjortjoglou.com…