三个方法教你做词云图,连文科生都能轻松学会

三个方法教你做词云图,连文科生都能轻松学会。

经常做数据分析的人肯定不会对词云图感到陌生,尤其是近几年来非常流行,不管是发布会、行业报告还是新闻,都喜欢使用词云这种形式,将信息的关键词组成形象生动的图案,一下子就能抓住生人眼球,因为词云图这种可视化图表给人的第一印象就是足够装逼,足够亮眼

三个方法教你做词云图,连文科生都能轻松学会

罗振宇的跨年演讲中用到词云

但是词语云图的最大优点,其实并不是它的颜值,而是它能够能够直观地展示数据频率,对出现频率较高的关键词予以重点突出,从而过滤掉大量的文本信息,帮助我们进行数据分析。

而且,如果能够亲手做一个词云图,发到朋友圈里岂不是能够帅到没朋友?

网上有很多线上词云制作网站,但是基本上很难实现对数据的筛选和过滤,仅仅是有着好看的皮囊而已。对于数据分析人而言,还是要借助专业的分析工具,下面我就用Python这个常用的数据分析工具,分别实操一下如何制作炫酷又装逼的词云。

Python

1、安装Python运行环境和套装

这个不必多说,推荐下载的套装是anaconda,做词云很好用。下载完毕后,配置好运营环境后,执行安装文件就行了。

三个方法教你做词云图,连文科生都能轻松学会

2、准备数据

下面是我随便找了一篇英文文章,作为要进行词云制作的数据基础:

三个方法教你做词云图,连文科生都能轻松学会

我把其中的正文文字部分拷贝了下来,存储为一个文本文件,叫做yes-minister.txt,把这个文件挪动到我们的工作目录demo里,这样数据就准备好了。

3、开始做词云了

做词云的核心步骤只有两个——输入文本呼唤词云包

首先,在命令行下,输入:

jupyter notebook

浏览器会自动开启,并且显示如下界面——Jupyter的主页面,我们点击New按钮,选择Python 2选项。

三个方法教你做词云图,连文科生都能轻松学会

然后就出现了一个空白的笔记本,供我们使用了。我们在网页里唯一的代码文本框里,输入以下3条语句,输入后,按Shift+Enter键,就可以执行了。

filename = "yes-minister.txt"
with open(filename) as f:
 mytext = f.read()

显示的结果如下图所示。

三个方法教你做词云图,连文科生都能轻松学会

文本就出现了,然后我们呼唤(import)词云包,利用mytext中存储的文本内容来制造词云。

from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)

此时,制作词云最核心的两步就完成了。

4、调出词云,完成

输入下面4行语句:

%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")

运行结果如图所示:

三个方法教你做词云图,连文科生都能轻松学会

这样一个简单的词云图就做好了,想要将词云图做的更加美观,还需要调节各种参数,这里就不一一讲解了,感兴趣地可以自己慢慢去探索。

总结

通过进行词云分析,我们可以看的出来哪些数据是出现频次最多的,我们的关注点是哪些。这次我演示做的词云也很简单,后续在研究研究让它更美观一些,精准一些。

本文由 帆软软件 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/77817.html 。

(0)
帆软软件的头像帆软软件专栏
上一篇 2019-07-25 09:48
下一篇 2019-08-06 09:18

相关文章

  • 数据领域最强编程语言Python和R要合作了!

    是的,你没有看错,数据科学领域从业者最离不开的两大编程语言,当红炸子鸡 Python 和“过气网红”R 真的要展开合作了。近日,URSA 实验室宣布,R 和 Python 正携手合作,旨在让使用不同编程语言的数据科学家能够更轻松地协作,避免不同语言开发人员的过多重复工作,这或许会成为今年最雄心勃勃的交叉事件。有网友对这次合作发表评论道:“这个真的蛮历史性时刻的”,不过也有网友调侃“两个最慢的语言正在合作”,你怎么看?

    2018-05-10
    2
  • 数据科学入门:选Python?还是R?

    对于想入门数据科学的新手来说,选择学Python还是R语言是一个难题,本文对两种语言进行了比较,希望能帮助你做出选择。
    我是德勤的数据科学家主管,多年来我一直在使用Python和R语言,并且与Python社区密切合作了15年。本文是我对这两种语言的一些个人看法。

    2019-03-16
    1
  • [Python]爬虫技术:(JavaScript渲染)动态页面抓取超级指南

    当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。浏览器知道如何处理这些代码并将其展现出来,但是我们的程序该如何处理这些代码呢?接下来,我将介绍一个简单粗暴的方法来抓取含有 J…

    2016-03-10
    0
  • 四万字歌词分析:那些年,我们一起追的五月天到底在唱什么?

    看看这些年陪伴我们的这五月天,到底在唱些什么?

    2019-06-01
    1
  • 数据分析工具怎么选?10大谏言!

    对于数据分析,我一直强调核心是业务,通过业务的分析逻辑影射到数据分析的处理逻辑,而数据分析工具则是帮助我们实现结果的手段。

    2019-07-29
    1
关注我们
关注我们
分享本页
返回顶部