数据告诉你:这四十年来的香港歌坛在唱些什么?

做大数据这行,很容易就会被贴上“闷骚”“无趣”的标签

大数据这行,很容易就会被贴上“闷骚”“无趣”的标签。但是,在我们原力大数据的技术团队里,就有一群“不走寻常路”的数据分析师

他们在钻研“高精尖”技术的同时,一样对生活充满了热爱,甚至,他们会用数据分析的理论和态度来研究日常喜好。

今天这篇文章的作者“唔好动”,就是一位专注技术,同时又喜欢音乐的“文艺青年”。下面让他用专业的大数据分析方法,带大家一探究竟:这半个世纪的香港歌坛,到底都在唱些什么?

文/唔好动 一个以写代码为生的填词人

作为一个热爱音乐的广东仔,我从儿时的数码暴龙,听到现在的麦浚龙,见证了香港歌坛近二十年兴衰。不管你是不是广东人,相信广东歌在很多人生命中都占据着不可或缺的一席地。

那么,那些年我们一起听过的港式流行歌,到底在唱些什么呢?作为一个专业的数据分析师,闲来做了一些歌词文本分析来探讨这个有趣的小问题。

一、分析手段介绍Step1 定义“那些年”和 “港式流行歌”

“那些年”:为了凸显港乐发展变化的轨迹,我将“那些年”定义为1970年到2010年,共40年,并以10年作为一个区间(年代),分别分析,以便对比。2010年后的歌就不纳入研究范畴,一来还没到十年,二来年代太近,最多只能算“这些年”。

“港式流行歌”:本着以人为本的思想,我先找到各个年代的代表歌手,再用爬虫[1]爬取歌手在这个年代发行的所有专辑(录音室专辑)的歌词。那么,什么又是代表歌手呢?这没有一个统一的标准答案,我暂且选取一些知名度高、作品量大和我比较喜欢(熟悉)的歌手。如八十年代的谭张梅陈、九十年代的四大天王等。

[1]爬虫不是虫,而是一种自动抓取网页数据的程序或脚本。

Step2 准备数据

定义明确后,我开始爬虾米音乐的歌词(因为虾米比较好爬…)

一共爬取了28位歌手,5029首歌,100+万字的歌词。其中17位男歌手/组合,11位女歌手/组合。

数据告诉你:这四十年来的香港歌坛在唱些什么?

▲爬虫爬取的歌词

平均每个年代7位歌手,平均每位歌手180首歌。是的,180这个数字也超乎我的想象,如黎明在90年代发行的专辑就有31张,而且还只算录音室专辑。

数据告诉你:这四十年来的香港歌坛在唱些什么?

▲爬到的陈奕迅2005年《U-87》里12首歌的歌词。

Step3 用TextRank算法提取Top50关键词

歌词文本准备就绪,那么我们如何在浩瀚的词海里淘到每个时代的主旋律?我的做法是:运用TextRank算法,提取Top 50的关键词。

数据告诉你:这四十年来的香港歌坛在唱些什么?

▲技术流程图

Step4 关键词分析,一探究竟

在Top50关键词的基础上再去分析,其实就是间接分析了这些歌词的主题。所谓窥一斑而见全豹也!下面,让我来给大家详细对关键词进行分析:

二、关键词分析本想每个年代选一个关键词,但因为有些关键词是跨时代的,所以我在分析举例的过程中,并不会局限于某个年代,综合挑选了4个最具代表性的关键词进行分析。

为了给大家一个直观的印象,我使用文字云的工具,每个年代分别生成一张图片。但需注意,文字云工具分词的算法,与我提取关键词的算法并不相同,下文的分析以TextRank算法的结果为依据,图片仅供参考。

鸳鸯受粤剧和英文歌影响的70年代

70年代的歌词很有诗意,如相思、春风、今宵、鸳鸯等。可能是因为流行音乐刚开始不久,仍然受到以往粤曲风格的影响。

数据告诉你:这四十年来的香港歌坛在唱些什么?▲70年代歌词词云

其中“鸳鸯”特别吸引到我的眼球,心想:这种词应该主要出自女歌手吧,要么是小凤姐(徐小凤),要么是汪阿姐(汪明荃),一定不会是我大Sam哥(许冠杰)和香帅(郑少秋)的。

然而统计结果却还我一个冰冷的巴掌——出现34次的“鸳鸯”,小凤姐和汪阿姐一共才占了7次,Sam哥占了7次,剩下20次全是香帅的!原来我脑海中只有郑少秋楚留香般的侠客形象,却忽略了他风流倜傥的另一面。看来真的要杜绝主观偏见,让数据说话。

数据告诉你:这四十年来的香港歌坛在唱些什么?▲汪明荃与郑少秋合照

70年代的歌词中,也出现很多英文单词,如love,me,all等。因为在许冠杰开始唱粤语之前,香港人都在听英文歌和国语歌。相信很多人对张国荣77年的American Pie有印象。英文歌是主流的现象从八十年代开始消失,可见许冠杰对港乐本土化起到极大的作用,难怪有“歌神”的称号。

诗意和英文,就像一对鸳鸯,在70年代的歌词湖泊上出双入对,代表着有别于其他年代的两大特点。这也是为什么“鸳鸯”这个词虽然出现频率不算太高,但仍当选年代关键词的原因。

我心80年代前后,流行直抒胸臆

数据告诉你:这四十年来的香港歌坛在唱些什么?▲八十年代歌词词云

80年代前后,“我心”出现的频率都很高,但零零年代就几乎不见影踪了。“妳已在我心,不必再问记着谁。”这是我马上找到的、找到之后就不愿再找的、包含“我心”的代表歌词。相信荣迷都懂我在说什么。

数据告诉你:这四十年来的香港歌坛在唱些什么?▲张国荣

虽说不愿再找,但好奇心驱使,还是再找找吧。“我堕入情网你却在网外看始终不释放,你笑笑看看我象是望着猎物我心已伤。”谭校长的《爱情陷阱》代表另一种风格的“我心”。

校长、哥哥都那么赤诚,频频将“我心”示人,不难想象其他歌手后辈会如何大力效仿,其中包括歌神张学友:《爱是永恒》中,“其实你没有别离,在我心湖中”,还有《太阳星辰》的“太阳星辰,即使变灰暗,心中记忆,一生照我心”。

顺便一提,这两首歌都出自我很喜欢的林振强之手,传说强伯的词有很多太阳、星星和月亮,有机会可以数据分析验证一下。

没有90年代,从有到无的想象力到达顶峰

90年代,歌词中出现大量的“没有”,“不可”,“没法”,“不想”等否定词汇。(其实八十年代就已经出现这种情况,只不过九十年代愈加明显和有代表性。)其中“没有”出现的频率非常显眼!

数据告诉你:这四十年来的香港歌坛在唱些什么?▲九十年代歌词词云

八十年代的1098首歌中,“没有”出现了207次,平均每五首歌出现一次;九十年代的2165首歌中,“没有”出现了983次,平均每两首歌出现一次;零零年代的1262首歌中,“没有”出现了821次,几乎平均每首歌出现一次!虽然“没有”只是副词,但我们不妨借它来研究一下歌词里的规律。

看看几个例子:

《风筝与风》没有灯 背影怎可上路如没云 天空都不觉高

……

当风筝没有风

一颗心也都很重

《当》

当山峰没有棱角的时候

当河水不再流

当时间停住日夜不分

当天地万物化为虚有

《最佳损友》

问我有没有 确实也没有

《有没有》

你有没有爱过我

有没有想过我
有没有 有没有

也会有一点心动
的时候 但是说不出口
有没有 有没有 有没有
有没有 有没有 ……

韦礼安的《有没有》:最后一段就有11个“有没有”……

(《当》和《有没有》是国语歌,但这套路太像了,所以放上来一起讨论。)

数据告诉你:这四十年来的香港歌坛在唱些什么?

▲twins

不难看出,上面的歌词分两类:“没有”和“有没有”。需要注意的是,“有没有”也被统计入“没有”的词频中。但因为两者意思其实不同,我们只探讨“没有”。

“没有灯,没有云,山峰没有棱角”,“没有”代表一种假设。因为有了,所以假设没有,我们会怎样;假设没有,便脱离现实,去到诗意的境界(至少是歌词的境界)。

难怪六七十年代的人听不惯现在的歌,因为他们那时穷啊,那时几乎是一无所有啊,你还让他们听 没有没有的,多残忍啊!而他们听的歌很多都是“有”的:

有风光,“漫漫前路有几多风光,一一细心赏”(徐小凤《漫漫前路》);

有胸襟,“湖海洗我胸襟,河山漂我影踪”(郑少秋《楚留香》);

有笑声,“沧海一声笑,滔滔两岸潮”(许冠杰《沧海一声笑》);

还有情,“未怕罡风吹散了热爱,万水千山总是情”(汪明荃《万水千山总是情》)。

解释一下,以前歌里的情不同于现在,以前的情多了几分积极向上。

世界00年代,物质世界全球化和精神世界的探索

到了00年代,除了“没有”之外,“世界”已然成为歌曲中最热门的词。

数据告诉你:这四十年来的香港歌坛在唱些什么?▲00年代歌词词云

00年代香港乐坛的代表人物无疑是第三代歌神陈奕迅,他有一首歌就叫做《世界》的:“原来爱情的世界很大,大的可以装下一百种委屈;原来爱情的世界很小,小到三个人就挤到窒息”。还有一首更为人熟知的,《全世界失眠》:“一个人失眠,全世界失眠,无辜的街灯,守候明天”。

数据告诉你:这四十年来的香港歌坛在唱些什么?▲陈奕迅

说了很多男歌手,该到女歌手啦。00年代的香港女歌手,我最爱杨千嬅,《飞女正传》:“世界将我包围,誓死都一齐,壮观得有如,悬崖的婚礼”。为什么从八十年代开始,到零零年代,“世界”越来越多地被歌手们传唱?

一方面,我认为与全球化和经济发展有关,借用一句台词,“你连世界都没观过,还谈什么世界观?”说一样东西之前,你一定对它有所认识。“世界”在华语歌词中的流行,其实反映了一种全球化的趋势。

另一方面,我认为与一个人有关。这个人的名字也出现在零零年代的关键词中,也是关键词Top50中唯一一个人名——他就是林夕。(注:歌词文本中没有去掉作曲作词人等数据。)

“世界”这个中文词汇,其实出自佛经,意指时间和空间。而林夕正好是佛教徒。林夕的词,精美细腻的下面,是深不可测,蕴含着很多他的哲学思想,所以他会使用很多诸如世界的佛家用语,也理所当然。

三、“爱情”——永恒的主旋律“鸳鸯”、“我心”、“没有”、“世界”,这四个关键词中的关键词,在香港乐坛年代变迁中,出现的频率跌宕起伏。然而,另有一个词,一直稳定且低调地占据着四个年代的关键词TOP10,它就是——“爱情”。

原来“鸳鸯”也是在讲爱情:

只羡鸳鸯不羡仙,鸳鸯般的爱情无比美好;

原来“我心”也是在讲爱情:

我心伤悲或狂喜,都是爱情在发动;

原来“没有”也是在讲爱情:

没有爱情一切无法想象,有了爱情可以想象一切;

原来“世界”也是在讲爱情:

爱情的对象,有时就是全世界。

难怪圣经也说:“爱情,众水不能熄灭,大水也不能淹没。”

现在,你知道香港歌坛四十年都在唱些什么了吗?

最后,附上4个年代关键词排名对比。

(只显示前15名)

数据告诉你:这四十年来的香港歌坛在唱些什么?▲70、80、90、00年代top15关键词排名

今天就先分享到这里,去看《歌手》了,心情好的话给大家用数据分析预测一下本季“歌王”吧!

本文由 原力大数据 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/41819.html 。

(1)
江颖的头像江颖专栏
上一篇 2017-02-21 05:44
下一篇 2017-02-28 00:40

相关文章

关注我们
关注我们
分享本页
返回顶部