艺术家如何使用机器学习来进行创作?

摘要：艺术家如何使用机器学习来进行创作纽约大学《用于艺术的机器学习》课程讲师Gene Kogan在本文中探讨了这个话题。

今年春季，我将在纽约大学的交互式电信项目（ITP）中教授一门课程——用于艺术的机器学习。因为在科学研究领域之外，大多数人并不了解这一科目，所以我想在这篇文章中对本课程进行一些解释说明，并借此简单勾勒我的计划。

在创意领域，已经有很多老师开设了向学生介绍机器学习的课程，其中包括Heather Dewey-Hagborg、Patrick Hebron和Rebecca Fiebrink。但这些相关课程中只有少部分是面向新闻学和STS（科学、技术和社会）等相关学科设置的，其中的大部分课程还是主要面向计算机学科和工程学领域。这种差异并不应该那样理所当然。为了了解其中的原因，我们首先来比较一下机器学习（ML）和人工智能的另一个分支计算机视觉（CV）。

图片：Footfalls（2006年，Golan Levin和Zachary Lieberman）是一个交互式视听装置，可以根据参观者的跺脚声产生瀑布式的弹性光影降落效果。

机器开始看见

第一个展示计算机视觉的艺术应用潜力的人是Myron Krueger；在他还在读计算机科学博士生时，他就在研究将计算机视觉应用到虚拟现实和增强现实中了，而且这一工作还一直贯穿了他的整个七十和八十年代。他的开创性工作为后来的交互式装置埋下了伏笔，并也将极大地影响即将成长起来的新一代艺术家。

21世纪初的那几年，计算机视觉仍主要停留在计算机科学领域，学习者也主要是计划将其用于自动化、监控等工业领域的科学家和工程师。那时候，艺术家才刚刚开始尝试使用研究实验室流出的软件，比如OpenCV——这是计算机视觉领域首个主要的免费开源源码库。

如果视频无法播放，点击这里试试

而今天，我们已经有很多可以使用的开源计算机视觉库了，基本上每一个创意编程框架下都至少有一个。计算机视觉已经被广泛地应用在游戏、交互式装置和其它许多设备场境中。

当然，计算机视觉和机器学习之间有明显的区别。后者的大部分应用都需要大量的数据，而这些数据并不总是那么容易获取。另外，计算机视觉的硬件要求现在已经降低到普通消费级设备的层次，而机器学习的硬件要求尽管也在下降，但对新架构来说仍旧不够友好。

另一方面，我们也有理由相信机器学习能比计算机视觉赢得更快的发展速度。首先，机器学习更为通用，其应用范围涵盖了语音和自然语言、数据科学、新闻业和金融等许多不同的领域。其通用化程度之高甚至可以将计算机视觉都归为其中一个子类；实际上现在已经有一些来自深度学习的技术（尤其是卷积神经网络）在一些视觉任务（如：对象识别）中超越了经典的计算机视觉方法。

此外，和计算机视觉相比，机器学习所获得的教育资源也丰富得多。你能找到大量的相关网络课程、知识和技术汇编、指导、教程……尽管这些知识并不是专门针对艺术家制作的，但其足够高的通用化程度使其可以在多种不同的学科中得到应用。尽管计算机视觉也有类似的资源，但远不像机器学习那样拥有如此众多的免费资源；考虑到计算机视觉实际上进入公众领域的时间更早，这样的成就也确实不可思议。

图片：来自「天书」，2015年12月

机器开始做梦

和许多人一样，我也因深度学习（Deep Learning）的兴起而倍感兴奋。深度学习是机器学习的一个分支，该技术现在在许多标准任务中被认为是最先进的技术，尤其是在大型的、无序的、未标记的数据（如图像、视频、音频和文本的原始数据）的分析处理中，更是受到青睐。2015年，深度学习在艺术领域也同样在突飞猛进；我也参与到了其中，并制作了一些新作品。

视频：为什么乌鸦像书桌？Stylenet +爱丽丝梦游仙境，2015年9月

如果视频无法播放，点击这里试试

我最新的作品就是上面提到的「天书」。我将一个包含了大量手写汉字字符的数据库导入到了一个神经网络之中，该网络能够学习这些汉字的一般表示方法，也能根据这些样本「幻想」出假的「手写样本」，并且还能在那些被认为写得好的样本中取出插值来生成中间结果。

去年九月份，我制作了视频《为什么乌鸦像书桌？》，该视频是使用样式转换或称「Stylenet」的技术处理动画片《爱丽丝梦游仙境》的一段场景之后得到的。

Yann LeCun将以上两个作品和其它一些作品分享到了深度学习研究社区。我希望这样的公众项目能够激励更多研究者将自己的软件开放给学术研究之外的项目。

艺术家应该深入学习深度学习吗？

深度学习确实有些难度。首先，必备软件可能难以安装。很多时候，机器学习需要大量软件，而且有时候这些软件还相互依赖，运行时会产生不可预知的错误；更恼火的是很多资料都是面向有计算机科学或软件工程背景的人设计的。对于那些没有相关背景的人来说，如果没有预先处理好，调试工作将会非常耗时，从而对主要的工作目标产生影响。

此外，这些软件的创意程序库中还包含了一些高层次的抽象。这些算法是由专家设计出来以更有效地执行某些特定任务的。但这也因此导致我们很难以一种和原作者的设计不一样的方式有创造性地利用这些库。另外，因为大部分深度神经网络的计算都比较昂贵，所以基本上难以用来用来创建实时应用。最后还不要忘了缺乏足够大的理想数据集、存储器限制等各种因素。

基于以上原因，我认为现在就围绕新的深度学习库向艺术家教授机器学习课程还没有多少价值。现在更有效的做法是使用更加成熟稳定的工具来构建分类、回归和聚类等应用。对于那些需要实时计算和基于性能的应用来说，Wekinator是一个非常合适的工具。该工具封装了大部分有关机器学习的细节，并且还通过Open Sound Control（OSC）协议提供了非常方便的接口，让艺术家和音乐家可以插入它们最喜欢的工具以及在更高层次上观察机器学习例程的基本函数。而对非实时的任务（如：数据可视化和推理）来说，scikit-learn是一个不错的选择，它非常容易使用，而且还有丰富的文档和相关案例可供学习参考。

我认为深度学习的教学很快就会变得更为实用，甚至在2016年底之前就可能实现。到那时，学习过「经典的」机器学习课程的学生将有更为充足的准备进入「深水区」。