用Python语言模型和LSTM做一个Drake饶舌歌词生成器

大数据文摘出品

编译：Fei、倪倪、什锦甜、钱天培

未来AI的主要应用是在建立能够学习数据然后生成原创内容的网络。这个想法已经充分应用于在自然语言处理（NLP）领域，这也是AI社区能够搭建出所谓语言模型的原因：语言模型的前提是学习句子在文章段落中的组成结构，从而生成新的内容。

在这篇文章中，我想尝试生成与很受欢迎的加拿大说唱歌手Drake(a.k.a. #6god)风格类似的说唱歌词，这肯定是件很有趣的事儿。

另外，我还想分享一下常规的机器学习项目渠道，因为我发现很多同学想做一些小项目，但不知道该从何处入手。

1.获取数据

首先，我们开始搜集Drake的曲库，为了节省时间我直接写了个爬虫，从网页metrolyrics.com抓取歌词。

import urllib.request as urllib2
from bs4 import BeautifulSoup
import pandas as pd
import re
from unidecode import unidecode

quote_page = ‘http://metrolyrics.com/{}-lyrics-drake.html’
filename = ‘drake-songs.csv’
songs = pd.read_csv(filename)
for index, row in songs.iterrows():
page = urllib2.urlopen(quote_page.format(row[‘song’]))
soup = BeautifulSoup(page, ‘html.parser’)
verses = soup.find_all(‘p’, attrs={‘class’: ‘verse’})
lyrics = ”
for verse in verses:
text = verse.text.strip()
text = re.sub(r”\[.*\]\n”, “”, unidecode(text))
if lyrics == ”:
lyrics = lyrics + text.replace(‘\n’, ‘|-|’)
else:
lyrics = lyrics + ‘|-|’ + text.replace(‘\n’, ‘|-|’)
songs.at[index, ‘lyrics’] = lyrics
print(‘saving {}’.format(row[‘song’]))
songs.head()
print(‘writing to .csv’)
songs.to_csv(filename, sep=‘,’, encoding=‘utf-8’)

我用了一个大家都很熟悉的Python包BeautifulSoup来抓取网页，这里参考了一位大牛Justin Yek的教程，我只花了五分钟就学会了使用。说明一下，上面的代码中我在循环里使用了songs这一数据格式，是因为我事先定义了想获得的歌曲。

教程：

https://medium.freecodecamp.org/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe

用DataFrame存储了所有的歌曲歌词

运行爬虫之后，我就得到了以合适的结构存储歌词的csv文件，下一步开始对数据进行预处理并且搭建模型。

2.模型介绍

现在我们来看看模型是如何生成文本的，这部分你要着重理解，因为这是真正的干货。我将先从模型设计和生成歌词模型中的关键组成部分讲起，然后，我们就可以直接进入实施阶段。

搭建语言模型主要有两种方法：

1.字符级（Character-leve）模型，

2.词汇级（Word-level）模型。

这两者的主要区别在于模型的输入和输出，接下来就具体讲解一下两个模型的工作原理。

字符级模型

在字符级模型中，输入是一连串的字符seed（种子），模型负责预测下一个字符，然后用seed + new_char组合来生成再下一个字符，以此类推。注意，因为我们每次输入的长度应保持一致，所以实际上在每次迭代输入时都要丢掉一个字符。我们可以看一个简单的直观的例子：

字符级模型生成词的迭代过程

每次迭代时，模型都是在给定种子字符的基础上预测下一个最可能生成的字符，或者利用条件概率，即找到概率P(new_char|seed)的最大值，其中new_char是字母表中的任一字母。

在此例中，字符表指所有英文字母和间隔符号的集合。（说明，字母表可以根据你的需要包含不同的字母，主要取决于你生成的语言种类）。

词汇级模型

词汇级模型和字符级模型非常相似，但是它用来生成下一个单词而非字符。这里举一个简单的例子来说明这一点：

图3. 词汇级模型生成词汇的迭代过程

现在在这个模型中，我们以一个词汇为单位向前寻找下一个词汇，而非字符。因此，我们想找到概率P(new_word|seed)的最大值，其中new_word是任一词汇。

这里要注意的是，这里我们搜索的范围比字符级要大得多。字符集模型中，我们只需从字符表中查找大概30个字符，但词汇级中每次迭代搜索的范围远远大于这个数量，因此每次迭代的运行速度更慢，但既然我们生成的是一整个词而不只是一个字符，所以也不算太糟糕。

关于词汇级模型，我最后想说明一点，我们可以通过在数据集中搜索独特的词汇来生成更加多样的词汇（这一步通常在数据预处理阶段进行）。由于词汇量可以无限大，我们其实有很多提高生成词汇性能的算法，比如词嵌入，不过关于这个问题可以再写一篇文章了。

这篇文章主要关注字符级模型，因为它更易于实施和理解，也更容易转化为复杂的词汇级模型。

数据预处理

针对字符级模型，我们将按照以下步骤进行数据预处理：

1.标记字符

对字符级模型而言，输入应该是基于字符而非字符串的形式。所以，我们首先要将歌词的每一行转变成字符的集合。

2．定义字符表

上一步，我们获得了歌词中所有可能出现的字符，接下来需要找出所有独特的字符。由于整个数据集并不大（只有140首歌），简单起见，我只保留所有英文字母以及一些特殊符号（比如空格），而忽略数字和其他的信息（因为数据集很小，我宁愿让模型少预测一些字符）。

3.创建训练序列

这里我们会用到滑动窗口的概念。通过沿着句子拖动一个固定长度的窗口，我们将建立用于训练的数据序列。下面的这张图很好地展示了滑动窗口的操作：

图4. 用滑动窗口获得输入/输出

我们通过每次平移一个字符，得到相应长度为20个字符的模型输入和长度为1个字符的模型输出。每次只平移一格的额外好处就是大大扩展了数据集的大小。

4.标注编码训练序列

最后，我们不想直接处理原始字符（尽管理论上讲每个字符都是一个数字，所以你也可以说ASCII码已经帮我们为每个字符完成了编码）。我们要做的是用唯一的数字和每个字符一一对应，这一步就是所谓的标签编码。同时，我们要建立两个非常重要的映射：character-to-index （字符到索引）和index-to-character（索引到字符）。有了这两个映射，我们就能将字母表中任意的字符编码成对应的数字，同理，也能将模型输出的数字索引解码获得相应的字符。

5.数据集的独热编码

因为我们用的是分类数据，就是说所有字符都可以被归为某个类别，所以我们要将字符编码成输入列的形式。

当我们完成以上五个步骤以后，基本就大功告成了，接下来只需要搭建和训练模型。如果你想深入更多细节，以下是五个步骤的代码供参考。

3.建立模型

我们将用循环神经网络（RNN），更具体的说是长短期记忆网络（LSTM），基于前面出现的字符集来预测下一个字符。如果这两个概念都听着陌生的话，我也提供了相关概念的快速复习：

RNN快速复习

通常，你看到的网络就是一个网状，从很多点汇聚到一个单点输出。如下图所示：

图5. 神经网络示意图

这里的神经网络是单点输入，单点输出。它适用于输入是不连续的情况，因为输入的顺序不会影响到输出结果。但是在我们的案例中，输入字符的顺序是非常重要的，因为顺序决定了对应的单词。

而RNN可以接收连续的输入，同时将前一个节点的输出作为参数输入下一个节点，从而解决输入顺序的问题。

图6. 简易RNN示意图

例如，基于序列Tryna_keep_it_simple，提取的下一个字符就应该是>

LSTM快速复习

简单的RNN网络仍存在一些问题，它不善于将非常前端的元胞信息传递到后端元胞。例如，句子Tryna keep it simple is a struggle for me中最后一个词me，如果不往回看前面出现了什么单词，那么这个单词是很难预测准确的（很可能就被预测成了Baka，cat，potato之类）。

而LSTM能够很好地解决这个问题，它在每个元胞中存储部分前面发生的事件信息（即前面出现的单词）。如下图所示：

图7. LSTM示意图，摘自Andrew Ng的深度学习课程

不仅传递前一个元胞的输出a<n> ，同时包含之前元胞输入信息的c<n> 也作为了下一个元胞的输入的一部分。这使得LSTM能够更好地保留上下文的信息，并适用于语言建模的预测。

编程建模

我之前学过一点Keras，所以这次就以Keras为框架编程搭建模型。其实也可以选择自己搭建模型框架，但这样会花费更多的时间。

# create sequential network, because we are passing activations
# down the network
model = Sequential()
# add LSTM layer
model.add(LSTM(128, input_shape=(maxlen, len(chars))))
# add Softmax layer to output one character
model.add(Dense(len(chars)))
model.add(Activation(‘softmax’))
# compile the model and pick the loss and optimizer
model.compile(loss=‘categorical_crossentropy’, optimizer=RMSprop(lr=0.01))
# train the model
model.fit(x, y, batch_size=128, epochs=30)