做大数据这行,很容易就会被贴上“闷骚”“无趣”的标签。但是,在我们原力大数据的技术团队里,就有一群“不走寻常路”的数据分析师。
他们在钻研“高精尖”技术的同时,一样对生活充满了热爱,甚至,他们会用数据分析的理论和态度来研究日常喜好。
今天这篇文章的作者“唔好动”,就是一位专注技术,同时又喜欢音乐的“文艺青年”。下面让他用专业的大数据分析方法,带大家一探究竟:这半个世纪的香港歌坛,到底都在唱些什么?
文/唔好动 一个以写代码为生的填词人
作为一个热爱音乐的广东仔,我从儿时的数码暴龙,听到现在的麦浚龙,见证了香港歌坛近二十年兴衰。不管你是不是广东人,相信广东歌在很多人生命中都占据着不可或缺的一席地。
那么,那些年我们一起听过的港式流行歌,到底在唱些什么呢?作为一个专业的数据分析师,闲来做了一些歌词文本分析来探讨这个有趣的小问题。
一、分析手段介绍Step1 定义“那些年”和 “港式流行歌”
“那些年”:为了凸显港乐发展变化的轨迹,我将“那些年”定义为1970年到2010年,共40年,并以10年作为一个区间(年代),分别分析,以便对比。2010年后的歌就不纳入研究范畴,一来还没到十年,二来年代太近,最多只能算“这些年”。
“港式流行歌”:本着以人为本的思想,我先找到各个年代的代表歌手,再用爬虫[1]爬取歌手在这个年代发行的所有专辑(录音室专辑)的歌词。那么,什么又是代表歌手呢?这没有一个统一的标准答案,我暂且选取一些知名度高、作品量大和我比较喜欢(熟悉)的歌手。如八十年代的谭张梅陈、九十年代的四大天王等。
[1]爬虫不是虫,而是一种自动抓取网页数据的程序或脚本。
Step2 准备数据
定义明确后,我开始爬虾米音乐的歌词(因为虾米比较好爬…)
一共爬取了28位歌手,5029首歌,100+万字的歌词。其中17位男歌手/组合,11位女歌手/组合。
▲爬虫爬取的歌词
平均每个年代7位歌手,平均每位歌手180首歌。是的,180这个数字也超乎我的想象,如黎明在90年代发行的专辑就有31张,而且还只算录音室专辑。
▲爬到的陈奕迅2005年《U-87》里12首歌的歌词。
Step3 用TextRank算法提取Top50关键词
歌词文本准备就绪,那么我们如何在浩瀚的词海里淘到每个时代的主旋律?我的做法是:运用TextRank算法,提取Top 50的关键词。
▲技术流程图
Step4 关键词分析,一探究竟
在Top50关键词的基础上再去分析,其实就是间接分析了这些歌词的主题。所谓窥一斑而见全豹也!下面,让我来给大家详细对关键词进行分析:
二、关键词分析本想每个年代选一个关键词,但因为有些关键词是跨时代的,所以我在分析举例的过程中,并不会局限于某个年代,综合挑选了4个最具代表性的关键词进行分析。
为了给大家一个直观的印象,我使用文字云的工具,每个年代分别生成一张图片。但需注意,文字云工具分词的算法,与我提取关键词的算法并不相同,下文的分析以TextRank算法的结果为依据,图片仅供参考。
鸳鸯受粤剧和英文歌影响的70年代
70年代的歌词很有诗意,如相思、春风、今宵、鸳鸯等。可能是因为流行音乐刚开始不久,仍然受到以往粤曲风格的影响。
▲70年代歌词词云
其中“鸳鸯”特别吸引到我的眼球,心想:这种词应该主要出自女歌手吧,要么是小凤姐(徐小凤),要么是汪阿姐(汪明荃),一定不会是我大Sam哥(许冠杰)和香帅(郑少秋)的。
然而统计结果却还我一个冰冷的巴掌——出现34次的“鸳鸯”,小凤姐和汪阿姐一共才占了7次,Sam哥占了7次,剩下20次全是香帅的!原来我脑海中只有郑少秋楚留香般的侠客形象,却忽略了他风流倜傥的另一面。看来真的要杜绝主观偏见,让数据说话。
▲汪明荃与郑少秋合照
70年代的歌词中,也出现很多英文单词,如love,me,all等。因为在许冠杰开始唱粤语之前,香港人都在听英文歌和国语歌。相信很多人对张国荣77年的American Pie有印象。英文歌是主流的现象从八十年代开始消失,可见许冠杰对港乐本土化起到极大的作用,难怪有“歌神”的称号。
诗意和英文,就像一对鸳鸯,在70年代的歌词湖泊上出双入对,代表着有别于其他年代的两大特点。这也是为什么“鸳鸯”这个词虽然出现频率不算太高,但仍当选年代关键词的原因。
我心80年代前后,流行直抒胸臆
▲八十年代歌词词云
80年代前后,“我心”出现的频率都很高,但零零年代就几乎不见影踪了。“妳已在我心,不必再问记着谁。”这是我马上找到的、找到之后就不愿再找的、包含“我心”的代表歌词。相信荣迷都懂我在说什么。
▲张国荣
虽说不愿再找,但好奇心驱使,还是再找找吧。“我堕入情网你却在网外看始终不释放,你笑笑看看我象是望着猎物我心已伤。”谭校长的《爱情陷阱》代表另一种风格的“我心”。
校长、哥哥都那么赤诚,频频将“我心”示人,不难想象其他歌手后辈会如何大力效仿,其中包括歌神张学友:《爱是永恒》中,“其实你没有别离,在我心湖中”,还有《太阳星辰》的“太阳星辰,即使变灰暗,心中记忆,一生照我心”。
顺便一提,这两首歌都出自我很喜欢的林振强之手,传说强伯的词有很多太阳、星星和月亮,有机会可以数据分析验证一下。
没有90年代,从有到无的想象力到达顶峰
90年代,歌词中出现大量的“没有”,“不可”,“没法”,“不想”等否定词汇。(其实八十年代就已经出现这种情况,只不过九十年代愈加明显和有代表性。)其中“没有”出现的频率非常显眼!
▲九十年代歌词词云
八十年代的1098首歌中,“没有”出现了207次,平均每五首歌出现一次;九十年代的2165首歌中,“没有”出现了983次,平均每两首歌出现一次;零零年代的1262首歌中,“没有”出现了821次,几乎平均每首歌出现一次!虽然“没有”只是副词,但我们不妨借它来研究一下歌词里的规律。
看看几个例子:
《风筝与风》没有灯 背影怎可上路如没云 天空都不觉高
……
当风筝没有风
一颗心也都很重
《当》
当山峰没有棱角的时候
当河水不再流
当时间停住日夜不分
当天地万物化为虚有
《最佳损友》
问我有没有 确实也没有
《有没有》
你有没有爱过我
有没有想过我
有没有 有没有也会有一点心动
的时候 但是说不出口
有没有 有没有 有没有
有没有 有没有 ……
韦礼安的《有没有》:最后一段就有11个“有没有”……
(《当》和《有没有》是国语歌,但这套路太像了,所以放上来一起讨论。)
▲twins
不难看出,上面的歌词分两类:“没有”和“有没有”。需要注意的是,“有没有”也被统计入“没有”的词频中。但因为两者意思其实不同,我们只探讨“没有”。
“没有灯,没有云,山峰没有棱角”,“没有”代表一种假设。因为有了,所以假设没有,我们会怎样;假设没有,便脱离现实,去到诗意的境界(至少是歌词的境界)。
难怪六七十年代的人听不惯现在的歌,因为他们那时穷啊,那时几乎是一无所有啊,你还让他们听 没有没有的,多残忍啊!而他们听的歌很多都是“有”的:
有风光,“漫漫前路有几多风光,一一细心赏”(徐小凤《漫漫前路》);
有胸襟,“湖海洗我胸襟,河山漂我影踪”(郑少秋《楚留香》);
有笑声,“沧海一声笑,滔滔两岸潮”(许冠杰《沧海一声笑》);
还有情,“未怕罡风吹散了热爱,万水千山总是情”(汪明荃《万水千山总是情》)。
解释一下,以前歌里的情不同于现在,以前的情多了几分积极向上。
世界00年代,物质世界全球化和精神世界的探索
到了00年代,除了“没有”之外,“世界”已然成为歌曲中最热门的词。
▲00年代歌词词云
00年代香港乐坛的代表人物无疑是第三代歌神陈奕迅,他有一首歌就叫做《世界》的:“原来爱情的世界很大,大的可以装下一百种委屈;原来爱情的世界很小,小到三个人就挤到窒息”。还有一首更为人熟知的,《全世界失眠》:“一个人失眠,全世界失眠,无辜的街灯,守候明天”。
▲陈奕迅
说了很多男歌手,该到女歌手啦。00年代的香港女歌手,我最爱杨千嬅,《飞女正传》:“世界将我包围,誓死都一齐,壮观得有如,悬崖的婚礼”。为什么从八十年代开始,到零零年代,“世界”越来越多地被歌手们传唱?
一方面,我认为与全球化和经济发展有关,借用一句台词,“你连世界都没观过,还谈什么世界观?”说一样东西之前,你一定对它有所认识。“世界”在华语歌词中的流行,其实反映了一种全球化的趋势。
另一方面,我认为与一个人有关。这个人的名字也出现在零零年代的关键词中,也是关键词Top50中唯一一个人名——他就是林夕。(注:歌词文本中没有去掉作曲作词人等数据。)
“世界”这个中文词汇,其实出自佛经,意指时间和空间。而林夕正好是佛教徒。林夕的词,精美细腻的下面,是深不可测,蕴含着很多他的哲学思想,所以他会使用很多诸如世界的佛家用语,也理所当然。
三、“爱情”——永恒的主旋律“鸳鸯”、“我心”、“没有”、“世界”,这四个关键词中的关键词,在香港乐坛年代变迁中,出现的频率跌宕起伏。然而,另有一个词,一直稳定且低调地占据着四个年代的关键词TOP10,它就是——“爱情”。
原来“鸳鸯”也是在讲爱情:
只羡鸳鸯不羡仙,鸳鸯般的爱情无比美好;
原来“我心”也是在讲爱情:
我心伤悲或狂喜,都是爱情在发动;
原来“没有”也是在讲爱情:
没有爱情一切无法想象,有了爱情可以想象一切;
原来“世界”也是在讲爱情:
爱情的对象,有时就是全世界。
难怪圣经也说:“爱情,众水不能熄灭,大水也不能淹没。”
现在,你知道香港歌坛四十年都在唱些什么了吗?
最后,附上4个年代关键词排名对比。
(只显示前15名)
▲70、80、90、00年代top15关键词排名
今天就先分享到这里,去看《歌手》了,心情好的话给大家用数据分析预测一下本季“歌王”吧!
本文由 原力大数据 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/41819.html 。