中科院自动化所研究员王亮：计算机视觉研究突飞猛进，走向实用仍任重道远

王亮是大会程序委员会主席之一，他主要从事机器学习、计算机视觉、模式识别、数据挖掘等相关领域的研究工作。现任中科院自动化所模式识别国家重点实验室副主任、智能感知与计算研究中心常务副主任、研究员、博导，是电子电气工程师学会（IEEE）会士，国际模式识别学会（IAPR）会士，国家杰出青年科学基金获得者，国家青年科技奖获得者。他曾在英国帝国理工大学、澳大利亚莫纳什大学、澳大利亚墨尔本大学及英国巴斯大学工作，历任助理研究员、研究员和讲师，于2010年入选中国科学院“百人计划”。

王亮作为计算机视觉领域的资深专家，对当前学界和业界的发展有着广泛而深入的研究。那么他对于当前的计算机视觉领域发展现状又有哪些洞见呢？

深度学习是AI的重要引擎

在人工智能的发展过程中，基于对“智能”的不同理解发展出了不同的学派。符号主义就是早期的主流学派，但因为表示能力有限且语法规则的定义比较困难，遭遇了一些瓶颈和质疑，继而引发了第一次的“寒冬”。而目前，深度学习（联结主义）成为了人工智能学界的主导者，掀起了新一股的潮流。生成式对抗网络（GAN）、图卷积网络（GCN）、强化学习、可解释模型、生物启发神经网络等各种新的模型如雨后春笋般出现，在人工智能的多个领域绽放了奇光异彩。

王亮指出，深度学习本身不是一个新方法，它本质上仍是人工神经网络，只不过是层数更多、结构更多样。随着大规模数据集的发布和高性能计算的普及，深度学习也逐渐回暖。深度学习的本质功能在于表达学习，并且突破了传统方法利用先验知识来手工设计特征的模式，转而进行数据驱动的自主特征学习。不同于以往单一的低层特征，自主特征学习可以获得具有层次性的、由低层到高层的特征，具有更强的表示能力，直接推动了人工智能领域的发展。然而，当前深度学习也有一定的局限性和待突破的瓶颈，例如其对数据集和计算能力的依赖就限制了其在复杂多样的实际场景中的快速部署。

数据集的规模和多样性至关重要

当前人工智能发展的三大要素包括：数据、计算力和算法，这三者相辅相成、相互提升、缺一不可。在这三者之中，数据集作为研究的基础，具有十分重要的价值。

以计算机视觉领域为例，深度学习方法一直占有举足轻重的地位，是这个领域中十分热门的研究方向。王亮认为，深度学习一个最大的特点就是能够利用大规模数据集来训练出高精度的模型，并能够自适应地学习适用于不同任务的数据特征表示。但是任何新技术都有其局限性，深度学习通常就需要大量的数据来进行训练。对于一个特定的研究任务来说，没有对应的数据集，就很难展开相应的研究工作。

在计算机视觉领域，一个十分重要的公开数据集就是ImageNet。ImageNet 是一个用于视觉对象识别算法研究的大型可视化数据库，始于 2009年。当时李飞飞、邓嘉等研究人员在CVPR 2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，之后基于ImageNet的开展了连续八届挑战赛ILSVRC，逐渐产生了广泛的影响。通过八年的发展，该比赛中算法对1000类图像识别任务的错误率已经降低至约 2.9%，远远超越人类（5.1%错误率）的识别能力，此时再进行这类竞赛对于领域发展的意义也不大了。在2017年ImageNet比赛终结后，李飞飞教授又提出了Visual Genome数据集，它的规模更大、标注信息更多，并向一些新的任务上进行了拓展，例如视觉关系检测等。

王亮给数据集的评价提出了三条重要标准：规模要大、多样性要丰富、要接近使用需求。他指出，依靠优秀的数据集可以推动研究的发展，而数据集也是在研究需求的推动下不断向前完善和发展的。

计算机视觉应用取得一系列突破

近几年，从卷积神经网络CNN到生成式对抗网络GAN，神经网络模型在不断的改进和演化，同时也影响到了计算机视觉的发展，王亮从图像视频理解的角度分析了计算机视觉发展过程中的关键技术节点：

从图像理解方面来讲，2012年ImageNet竞赛上，使用了CNN的AlexNet模型的性能比传统方法提升了大概11个百分点。自此以后，CNN强大的特征学习能力在不同视觉任务中都得到了证明，而且刷新了当时很多任务的最好结果。在该CNN模型基础上衍生出的新模型包括VGGNet、GoogleNet、ResNet等的网络层数变得越来越深，从当时几层到几十层，进而发展到现在的几百上千层。当时的事实证明，网络越深其学习到的特征判别力越强，所以每一个新型深度网络的提出都阶梯式地推动了视觉领域快速发展。最近，随着网络结构搜索（NAS）技术的兴起，除了增加模型深度，更加高效合理的网络结构得到探索。

对于视频方面来讲，2011年出现的3D-CNN可以算是一个里程碑式的初始技术结点，其后续又被扩展成一般化的视频特征提取网络C3D。而在2014年前后，经典的递归神经网络RNN、长短时记忆模型LSTM等时序模型的大量出现，也是处理视频时序数据的重要技术结点。另外，最近基于对抗生成网络GAN和图卷积神经网络GCN等新模型也在图像视频的生成和理解方面取得了一系列进展。

从实验室成果到产业化落地仍有诸多挑战

王亮有着丰富的关于视觉理解、行为识别、步态识别的研究经历，当前这些技术已经产业化落地，大量应用在视频监控等应用上。但王亮认为，许多研究成果要从实验室走向实用仍任重道远。

例如在步态识别这个任务上，王亮带领的研发团队就用了超过17年的钻研完成了从0到1，再到“独门绝技”的突破。但在研究的初始阶段，国际上对于步态识别的研究寥寥无几，也缺少进行评测的合理规模的步态数据库，曾给他带来过很多的困难。最后他迎头直上，带领团队建立了国际上第一个多视角步态数据库CASIA-A，这大大帮助了跨视角步态识别算法的研究。后来计算机的计算能力有了飞跃，也开始有了对于更大规模、更高精度、更多模态、更多适应场景的步态识别算法的需求。为了满足这些需求，王亮团队又不断创新，逐步建立了CASIA-B、CASIA-C、CASIA-D和CASIA-E等多种不同的数据库，满足了研究的需要，推进了团队的算法研究水平，达到了世界的顶尖水平。在最具有挑战的跨视角步态识别的算法研究中，王亮团队陆续提出一系列改进方法，达到了国际最高性能，并发表在国际顶级会议及期刊上。然而，这些先进的实验室成果距离走向实用仍然有诸多阻碍。

科研算法最终都要走向实际应用才能对社会产生直接的价值。团队不只着眼于论文中的算法研究，还从实用的角度去综合考虑步态识别这一技术。团队依次开发了步态识别演示系统离线版1.0，实现了对电脑端步态视频的分析。为了做到实时分析，团队又开发了在线版步态识别系统V1.0，并在采用深度学习技术后更新至2.0版本，此时系统的识别精度大幅提升，达到了可以商用的程度。最近，团队创立的水滴科技公司更是将步态识别技术部署到安防刑侦第一线，将对社会产生巨大的价值。

与此同时，步态识别也面临着很多挑战亟需解决：比如在人群密集场所，如何解决遮挡情况下的身份识别？在着装随季节变化很大的情况下如何保证准确的识别？智能深度传感硬件Kinect等又会对步态识别产生什么影响？这一系列的问题仍然需要我们在未来去深入探索。但王亮相信，通过学界和业界的共同努力，在未来人们身边的产品会越来越智能化，并以移动互联网、智能交互为途径，融入到人们日常生活的方方面面。

本文由中国人工智能大会投稿至数据分析网并经编辑发表，内容观点不代表本站立场，如转载请联系原作者，本文链接：https://www.afenxi.com/73591.html 。