MIT课程笔记：数据可视化会撒谎

这篇文章取材于David Karger教授讲授的Data Visualizations课程，此课程是MIT ProfessionalEducation开设的网络课程Tackling the Challenges of Big Data的一部分。文中部分图片经Karger教授本人授权，请勿转载。

上一期的可视化专栏中，我们推出了一篇文章《人类历史上最有影响力的5张信息图》，相信读过这篇文章的读者都会对下面这幅图有印象。这是排名第二的“战争死亡统计图”，作者FlorenceNightingale（南丁格尔）是一名护士，她用数据图表的方式展示了那些可预防疾病（蓝色和灰色区域）导致的惊人死亡数字，成功的说服了将军们投钱在医院和医疗设施上。

看到这幅图，相信读者都会像我一样惊叹于160年前的这位护士的智慧，但是在惊叹的同时，或许你也会像我一样有疑惑：这幅图看起来并不是那么直观明了，问题出在哪里呢？Karger教授解释说，因为南丁格尔采用了图形面积作为可视化变量来表示死亡人数，而我们的眼睛已经在某种程度上习惯于比较单一的长度或宽度，而不是面积。另外一个问题是，她把这些颜色叠放在一起，粉红色区域的下面，还有很多蓝色；而有些地方看不到任何的粉红色，因为它被盖在灰色的下面。下面这幅图也存在同样的问题。这是1979年Time杂志在石油危机爆发时发表的一张图，用来表示1973-1979年间石油价格的变化。

这幅图的本意是用桶的高度来表示石油价格的变化，离我们最近的桶是最远的桶的5.5倍。但由于角度和阴影的关系，我们直觉上会认为桶的体积表示了价格的变化。尽管这个图上的数字是正确的，1979年石油价格是1973年的5.5倍，但是由于这幅图给我们的误导，我们会把体积变化（270倍）当成一个与价格有关的变量。

这是在创建可视化过程中容易进入的误区，也是我们应该尽量避免的。一般的规则是，尽量避免使用多维变量来代表数量。如果你想用一个可视变量代表一个数，那么只使用长度或者高度，但不要两者同时用。下面三张图显示的是2000年的股市崩盘。

看第一张图，我们会觉得2000年的股市崩盘是灾难性的。但是，如果我们把纵坐标范围扩大到整个股票市场的价格区间0-$10,000，这个下跌曲线看起来就平缓多了。如果我们再把横坐标的年份放大到1950-2000年，那么这个下降看起来根本就不算什么。

下面这两张图可谓恶劣之作。这两张图出现在一本杂志的封面，企图披露康奈尔大学在学校排名直线下降的同时学费持续飙升。让我们来看看真实情况是怎么回事。

首先，我们来看看排名。不要忘了，学校的排名是数字越小越好，所以图中下降的曲线实际是表明康奈尔排名上升了。另外，两幅图表示年份的横坐标使用的是不同的时间尺度。第一张图的学费数据，从1965年开始；而第二张图的排名，从1988年开始。最后，关于学费的数据也有问题。它实际上并不是图文中所说的学费，而是学费/收入比。所以，这两张照片放在一起，根本无法说明他们所说的问题。
再来看一个例子，下面这张图来自纽约时报，显示了1978年到1985年汽车燃料标准的改变。

这个图的问题是，这里用0.6英寸代表1978年的18英里/加仑，用5.3英寸代表1985年的27.5英里/加仑，并试图用透视图使它看起来更漂亮。但这样做，在视觉上大幅度放大了长度的变化。因此，我们看到的不是每加仑英里数增加了52％，而是780%。

下面的例子是Karger教授制作的关系数据可视化图。

这是对一个特殊虚拟社交网络的可视化图。从图中你会看到有几个核心人物，周围环绕一堆边缘人物。但是，这其实是一种假象。事实上，这里的数据是一个对称的圆环，也就是说任何一个人跟他周围人的关系跟其他人和周围人的关系是完全一样的。而图中的核心人物，是由于制作时把三维物体投影成两维造成的。显然，这张图会给在视觉上造成很强的欺骗性。

总的来说，可视化是一个非常强大的工具，有时候比统计数据本身更强大。这意味着它可以更好地揭示真相，但同时也可能更显著地放大错误。在可视化的过程中，要经常反问自己：这个图有没有什么不正确的暗示？要做到这一点，需要考虑：一、显示完整的坐标区间；二、显示全面的数据；三、选择适当的可视化变量。