如何对100万个星系进行分类？

大数据文摘出品

作者：Matthew J.Salganik

星系动物园项目是2007年牛津大学天文学研究生凯文·肖文斯基发起的。简单来说，肖文斯基对星系很感兴趣，而人们可以根据星系的形态（椭圆形或螺旋形）和颜色（蓝色或红色）对它们进行分类。当时，天文学家的传统观点是，像我们的银河系这样的螺旋星系的颜色是蓝色的（意味着年轻），而椭圆星系的颜色则是红色的（意味着年老）。

肖文斯基对这一传统观点有所怀疑。他猜想，尽管上述规律一般来讲是正确的，但也可能有相当数量的星系例外，通过研究这些不符合预期规律的不同寻常的星系，他便能对星系的形成过程有所了解。

从志愿者到天文学家的转变只要10分钟

因此，为了推翻传统观点，肖文斯基需要的是大量按形态分类的星系，也就是已被划分为螺旋形或椭圆形的星系。但问题是现有的分类算法还不足以用于科学研究。换句话说，在当时，分类星系对计算机来说是一项很难的任务。因此，肖文斯基需要的是大量人工分类的星系。带着研究生的热忱，肖文斯基开始了分类工作。经过7天每天12小时的马拉松式奋战，他共对5万个星系进行了分类。尽管5万个星系听起来可能很多，但其实仅占斯隆数字天空勘测计划所拍摄的将近100万个星系的大约5%。肖文斯基意识到他需要采取一个更具扩展性的方法。

幸运的是，对星系进行分类并不需要人们接受有关天文学的高深培训，你可以很快就教会一个人如何进行星系分类。换句话说，尽管星系分类对计算机来说是一项困难的任务，对人来说却是非常简单的。因此，当肖文斯基和同学克里斯·林托特坐在牛津大学附近的一家小酒馆时，他们想到了创建一个网站，然后让志愿者对星系的图像进行分类。几个月后，星系动物园诞生了。

在星系动物园的网站上，志愿者需接受几分钟的训练。例如，了解螺旋星系和椭圆星系的区别。完成该训练后，每个志愿者必须通过一项相对简单的考试，即正确地将15个星系中的11个进行分类，然后就能开始通过一个简单的基于网络的界面对未知星系进行真正的分类了。从志愿者到天文学家的转变在不到10分钟内就完成了，而且只需跨越最低的门槛——一个简单的测试。

图片来源于《计算社会学》

在一份报纸报道了该项目之后，星系动物园吸引来了第一批志愿者，然后在大约6个月的时间里，项目吸引了超过10万名公民科学家，人们之所以参与是因为他们喜欢这项任务，并且想要帮助推进天文学的发展。这10万名志愿者总共贡献了4000多万条分类信息，其中大部分分类信息是由一些相对较少的核心参与者完成的（Lintott et al. 2008）。

图片来源于《计算社会学》

有雇用大学生做研究助理经验的研究人员可能会立刻对数据质量产生怀疑。尽管这种怀疑是合理的，但星系动物园这一项目表明，志愿者所贡献的数据经正确地清洗、消除偏差和整合后也能产生高质量的结果。让公众创造出专业质量数据的一个重要技巧就是重复开展，即让许多不同的人来执行相同的任务。在星系动物园这一项目中，志愿者对每个星系都贡献了大约40条分类数据，这种程度的重复率是雇用大学生做研究助理的研究人员永远都无法达到的，因为他们需要更加关注每个个体分类数据的质量。志愿者用重复弥补了他们在训练方面的欠缺。

整理多重分类数据，总共要几步？

尽管不同志愿者对同一星系进行了多重分类，但要想把这些多重分类数据结合起来以得出一个一致的分类还是很困难的。在星系动物园的项目中，相关研究人员得出一致分类的三个步骤很有帮助。

首先，研究人员通过删除虚假分类清洗了数据。例如，那些反复对同一星系进行分类（如果有人试图操纵结果可能就会这么做）的人会被删除所有的分类数据。这类清洗及其他类似清洗所删除的数据约占总分类数据的4%。

然后，研究人员需要消除清洗后的分类数据中的系统偏差。通过一系列嵌入在原始项目中的偏差检测研究，例如给一些志愿者呈现黑白的而不是彩色的星系图像，研究人员发现了多个系统偏差，例如把因距离遥远而外表模糊的螺旋星系划分成椭圆星系。调整这些系统偏差非常重要，因为重复分类也无法自动消除系统偏差，重复分类只是有助于消除随机误差。

最后，研究人员需要用一种方法把消除偏差后的个体分类数据结合起来，得出一个一致的分类。将每个星系的所有分类数据结合起来的最简单的方法是选择最常见的分类数据。但这就意味着每个志愿者的权重是一样的，而研究人员则认为有些志愿者要比其他志愿者更擅长分类。因此，他们开发了一个更复杂的迭代加权程序，试图检测出最好的分类数据并赋予它们更多的权重。

因此，经过清洗、偏差消除和加权这三个步骤后，星系动物园的研究团队将4000万条志愿者的分类数据转化成了一组一致的形态分类。在将这些形态分类与之前三次由专业天文学家进行的小规模星系分类（其中包括为星系动物园的诞生贡献了部分灵感的肖文斯基所进行的分类）进行比较后发现，它们之间的吻合度很高。因此，将志愿者的贡献整合后也能得出高质量的分类数据，而且其规模是研究人员个人无法企及的。事实上，通过对如此大量的星系进行人工分类，肖文斯基、林托特和其他相关人员发现，大约只有80%的星系是符合预期规律的，即螺旋星系是蓝色的、椭圆星系是红色的。

至此，大家应该明白了星系动物园是如何遵循分解–运用–整合这一策略的，这一策略也被用于大多数人本计算项目。首先，把一个大问题分解成多个小问题。以星系动物园为例就是，对100万个星系进行分类这个大问题被分解成了100万个对一个星系进行分类的小问题。然后，分别运用人力对每个小问题进行操作。以星系动物园为例就是，志愿者将每个星系划分为螺旋形或椭圆形。最后，整合所有结果以得出一个一致的结果。以星系动物园为例就是，通过清洗、偏差消除和加权，得出每个星系的一致分类。尽管大多数项目都会采用这一通用的策略，但需要根据所处理的具体问题对每个步骤进行相应的调整。例如，下面这个人本计算项目采用的也是这个策略，但运用和整合这两个步骤是截然不同的。

机器学习，让数据呈指数级增长

对星系动物园的团队来说，这个项目仅仅是个开始。很快他们便意识到，尽管能对将近100万个星系进行分类，但这个规模还不足以配合新的大约能拍到100亿个星系的数字天空勘测。要想应对从100万到100亿的增长，也就是10000倍的增长，他们需要招募的参与者数量大致是星系动物园这个项目的10000倍。尽管互联网上的志愿者很多，但也不是无限的。因此，研究人员意识到，如果他们想要处理数据量日益增多的数据，就需要一个新的、更具扩展性的方法。

于是，曼达·班纳吉同肖文斯基、林托特和星系动物园团队的其他成员一起，开始教计算机进行星系分类。更具体地说就是，班纳吉利用星系动物园所创建的人工分类数据建立了一个机器学习模型，它能够根据图像特征预测星系的人工分类结果。如果该模型的预测精度很高的话，那么星系动物园的研究人员基本就能用它对无限的星系进行分类了。

班纳吉和同事方法的核心实际上和社会研究中常用的技术非常相似，尽管乍一看这种相似性可能并不明显。首先，班纳吉和同事将每张图像转化成了一组概括其性质的数字特征。例如，星系图像可以有三个特征：图像中蓝色像素点数量、像素亮度方差、非白像素比例。选择正确的特征是这一问题的重要部分，这通常需要专业领域的专业知识。经过这一步，班纳吉和同事构建了一个数据矩阵，每一张图集都由一行和三列数据描述。根据该数据矩阵和期望输出值（例如，如采用人工分类，某一图像是否会被划分为椭圆星系），研究人员可以构建一个统计或机器学习模型。最后，研究人员可以利用该统计模型中的参数预测出新的星系的分类。在机器学习中，这种利用标签示例创建一个能标记新数据的模型的方法被称为监督式学习。

星系动物园很好地表明了许多人本计算项目是如何逐步发展的。首先，一个研究人员会自行或与一小组研究助理一起尝试开展一个项目（例如肖文斯基最初所进行的分类）。如果这个方法在规模上不能满足要求，那么研究人员就会选择采用有许多参与者的人本计算。但在数据量达到一定规模后，单纯依靠人力就不足以解决问题了。在这种时候，研究人员就需要构建一个计算机辅助人本计算系统，利用人工分类数据训练一个基本能够处理无限数据的机器学习模型。

本文整理自《计算社会学》

马修·萨尔加尼克著

中信出版集团