多属性排序的数据可视分析

摘要：日常生活中，我们经常会看到、使用或遇到各类排序表格，当数据项属性很复杂时，理解并展示多属性的变动就变得困难，多属性排序可视化技术有哪些呢本周，百度EFE团队将为我们介绍多属性排序可视化的现实需求，进而引出一种用来创建、可视化、探究多属性数据项排序的交互技术——Line Up。

那么，多属性排序可视化工具需要解决的现实需求究竟有哪些呢今天，我们将为你揭晓。

什么是多属性排序可视化

在我们的日常生活中经常会遇到各种各样的排序列表，排序是将无序的数据项集合重组的普遍方式，它基于数据项的单个或多个属性值为数据项计算一个排名。多属性排序是普遍存在的，在多属性排序中，我们无法直观理解单个属性对排序所做的贡献以及单个或多个属性的变动是如何影响排序的。

具体来说，多属性排序可视化工具需要解决的问题为：

1、当诠释一组排序时，我们想知道为什么一个数据项的排名比其他项要低(高)，是因为它的所有属性值都低(高)还是因为它的某个属性值较低(高)。

2、如何使得不同类型的属性之间具有可比性，并且组合在一起产生一个排名。

3、如何比较同一个数据项的不同排名，如修改一个数据项的属性，它的排名会相应变化，我们希望比较这些变化的排名。

4、如果可以修改排序中单个或多个数据项的属性，我们希望探究属性值改变所产生的效果。

这篇文章中将介绍对多属性排序可视化的需求所作的全面分析，以及全新的多属性组合排序可视分析技术LineUp的设计与实现。

多属性排序可视化的需求

1、排名的可视编码：可视化的用户能够快速地理解单个数据项的排名。

2、排名由来的可视编码：也就是对排名所依赖的属性值进行编码。

3、支持多重属性：支持基于多重属性的排序，允许用户将任意的几个属性组合，从而产生一个综合的排名。

4、支持过滤：用户可以过滤出满足特定条件的数据项。

5、属性值的标准化：数据项的属性可以是不同类型的(数值型或有序型)、不同规模的(0到1之间或无限的)、不同语意的(对有的属性来说值越高越好，然而对于其他属性来说可能值越低越好)。因此排序可视化必须允许用户灵活地将属性值进行标准化，如将其映射到0到1之间，从而获得一个标准化的分数。

6、适应任务的可扩展性：当数据量以及属性个数改变时，该可视化技术也能很好地工作。

7、处理缺失值：现实世界中的数据集大多是不完整的，因此一个精心设计的可视化技术，应该包含处理缺失值的方法。

8、交互的改进以及可视反馈：排序可视化要确保用户能够动态地增加和删除属性、修改属性组合、改变属性的权重、以及属性的映射，并且能够以可视化的形式直观地反映这种变化产生的效果。

9、排名驱动的属性优化：优化属性的值和权重以得到一个数据项的最佳排名。

10、比较多重排名：比较同一组数据对象的不同排名，如研究同一组大学过去十年内排名的变化。

多属性排序可视化技术

LineUp是一种用来创建、可视化、探究多属性数据项排序的交互技术，该技术基于不同形态的柱状图，本文以《泰晤士报》评选出的前100强大学中的50强为例。

如图1，其中排名列显示了数据项的排名;文本属性列是对数据项的说明;数值属性列以柱状图的形式编码了属性值的大小，并且在每一列的列头不仅包含了属性的名称还包括属性值分布的柱状图。

组合属性列是对数值属性的组合，组合属性列头部的灰色柱状图表示组合属性得分的分布情况。下面将详细介绍基于上文提出的需求所实现的一些关键技术。

组合属性

LineUp有两种组合属性的方式，分别是串行组合和并行组合。

串行组合中属性的组合得分是单个属性标准化值的加权求和，以堆叠柱状图编码串行组合属性，柱状条的长度编码了数据项的排名，柱状条越长排名越靠前，柱状条中不同颜色的组成部分编码了不同的属性并且它的宽度编码了属性所占的权重，可以通过拖动改变不同组成成分所占的宽度或者双击列头的百分比修改单个属性所占的权重，图1就是串行组合的方式。

堆叠的柱状图使得用户无法直观地比较不同数据项的同一个属性，因此LineUp实现了四种不同的对齐策略，如图2。