选自research.fb
作者:Oran Gafni、Lior Wolf、Yaniv Taigman机器之心编译
参与:Panda、张倩
人脸识别正得到越来越广泛的应用,但有时我们希望在网上发布自己视频的同时又不被各种人脸识别软件识别出来。近日,Facebook AI 研究所提出了一种可以让你在人脸识别软件面前「隐身」的方法。这种方法会对视频中的人物面部特征进行修改,修改后的人脸与原人物看起来高度相似,但 AI 却识别不出修改后的视频人物,效果堪比整容。
经过修改的影视片段。左:原视频;右:用 Facebook 的方法修改后的视频。
经过修改的名人访谈片段。左:原视频;右:用 Facebook 的方法修改后的视频。
论文链接:https://research.fb.com/wp-content/uploads/2019/10/Live-Face-De-Identification-in-Video.pdf?
在面向消费者的图像和视频应用中,人脸相较于其它所有目标而言是格外重要的。因为人脸技术既很有用,又会产生很大影响,因此存在很多道德上的担忧。人脸识别可能导致隐私受损,而人脸替换技术则可能被错误地用于创建误导人的视频。 Facebook 的这项研究关注的重心是视频身份消除(video de-identification),这个视频过滤应用既需要优于之前最佳水平的技术进步,而且在本质上是向善的。该应用需要创建出类似长相的人的视频,使得被感知的身份发生改变。这种技术是很有用的,比如能让用户在公共论坛上匿名地发布看起来很自然的视频消息,并防止人脸识别技术认出他们。 视频身份消除任务的难度很高。视频需要得到无缝式的修改,进而实现身份转变,同时又不能导致闪烁或其它视觉伪影或畸变,而且还要保证其它元素保持不变,如图 1 所示。这些因素包括姿势、表情、嘴唇位置(对应未经改变的语音)、遮挡、光照和阴影、动态。
图 1:视频身份消除的结果,展示了不同的姿势、表情、光照条件和遮挡情况。这里展示了成对的源帧(第一行)和输出帧(第二行)。其中高层面特征(鼻、眼、眉毛和嘴型)完成了修改,同时姿势、表情、嘴唇位置、光照和肤色信息得到了保留。 作者表示,其它文献中的方法仅限于操作静态图像,而且是通过数据集中的脸来替换给定的脸,Facebook 的这种新方法则能处理视频,还能生成全新的脸。实验表明,这种方法在各种无限制的视频上都有令人信服的表现,能得到看起来很自然的视频。经过渲染后,视频中的人的外表看起来与原始视频中的人近似。但当前最佳的人脸识别网络却无法识别视频中人的身份。作者还对人类观察者进行了类似的实验,结果表明:即使不加时间限制,人类也无法认出哪个是修改后的视频。 这种新方法包含了相当多的创新,其中包括一种全新的编码器-解码器架构。在该架构中,作者将为执行人脸识别而训练的网络的表征层的激活与隐藏空间连接了起来。作者表示,这是首个使用已有分类器的表征来增强自动编码器的研究,这能实现对训练阶段未曾见过的新人的前向处理。此外,这也是首个引入了一种新型吸引器-排斥器感知损失(attractor-repeller perceptual loss)项的研究。这个损失项能将中低层面的感知项与高层面的感知项区分开。其中前者是用于将输出帧绑定到输入帧,而后者则是用于拉远身份之间的距离。在这种全新的架构中,向隐藏空间注入表征能让网络创建的输出符合这个复杂的标准。
这个网络的另一个独有特性是其输出既是图像,也是掩码(mask),它们会以一前一后的方式被用于重建输出帧。这种方法的训练使用了一种特定的数据增强技术,该技术有助于网络的映射过程纳入语义信息。 此外,作者使用的损失项还有重建损失、边缘损失和对抗损失。
方法 这项研究提出的新架构基于对抗式自动编码器,并与一个经过训练的人脸分类器进行了耦合。通过将自动编码器的隐藏空间与人脸分类器的表征层连接到一起,能够得到一个丰富的隐藏空间,其中既嵌入了身份信息,也嵌入了表情信息。这种网络的训练方式是反事实式的,即其输出在一些关键方面不同于输入,而这些关键方面可通过条件来设定。因此,这一生成任务涉及高度的语义信息,要成功完成这一任务,不能使用常规的重建损失。 在这种身份消除任务中,作者会使用一张目标图像,这可以是视频中的人的任何图像。然后该方法会拉远输出视频的人脸描述量与该目标图像的人脸描述量之间的距离。这有助于该方法的应用,使其能被应用于实时视频。在实验中,作者没有使用输入帧,以展示该方法的通用性。为了编码目标图像,作者使用了一个经过预训练的人脸分类器 ResNet-50 网络,该网络的训练是在 VGG-Face2 数据集上完成的。 实验的测试过程类似于人脸交互文献中的步骤,如下:(a)使用 dlib 人脸检测器 [21] 提取一个方形边界框;(b)使用 [18] 的方法检测出 68 个面部点;(c)使用到平均人脸的估计的相似性变换(比例、旋转、平移)提取一个变换矩阵;(d)将这个估计的变换应用于输入人脸;(e)将变换后的人脸与目标图像的表征一起传入新提出的网络,得到一张输出图像和一个掩码;(f)使用上述相似性变换的逆运算将该输出图像和掩码投射回来;(g)根据变换后掩码的权重,通过在每个像素基础上线性混合输入和网络的经过变换的输出图像,生成一个输出帧;(h)在通过面部点的凸包(convex hull)定义的区域中,将结果融合进原始帧。
训练阶段执行的步骤如下:(a)对人脸图像进行畸变和增强操作。这可通过使用随机缩放、旋转和弹性变形来完成;(b)将畸变后的图像与目标图像的表征一起输入该网络。在训练期间,作者选择的是未经畸变的同样的图像。(c)将掩码输出(在上面的 g 步骤计算得到)与无畸变输入的线性组合传入判别器。这种混合技术将在下面讨论。(d)将损失应用于该网络的掩码和图像输出以及有掩码的输出。下面会详细介绍。 注意,该网络的训练方式和使用方式之间是存在差异的。不仅在训练时不会刻意在视频上完成训练,而且目标图像的选择方式也不同。在训练期间,作者是从训练图像本身提取身份,而不是从独立的目标图像提取。但这种方法依然能很好地泛化,能在无限制的视频上执行真实任务。 网络架构
图 2:(a)网络架构,其基础包含一个预训练的人脸识别网络。(b)所使用的多图像感知损失示意图,其使用了同一个人脸识别网络的两个副本。 图 2(a) 展示了网络架构。编码器由一个卷积层构成,其后跟有五个使用了实例归一化的有步幅深度可分卷积。之后再使用一个单个全连接层,再连接上目标人脸表征。解码器则由一个全连接层构成,其后是扩大(upscale)模块和残差模块构成的一个 lattice,最后是用于输出图像的 tanh 激活函数以及用于掩码输出的 sigmoid 激活函数。每个扩大模块都由一个 2D 卷积构成,其过滤器数量是输入通道大小的两倍。经过实例归一化和 LReLU 激活之后,激活会被重新排序,使得宽度和高度加倍,同时通道大小减半。每个残差模块输入与 Conv2D-LReLU-Conv2D 链的输出求和。 其中还使用了一个低容量的 U-net 连接(32x32x1)以放松自动编码器的瓶颈限制,从而使网络更侧重于编码与传输相关的信息。这个连接的大小不超过瓶颈大小(1024),而且由于输入图像的畸变,这能防止自动编码器在训练阶段早期坍缩成简单的重建自动编码器。 判别器由四个带步长的卷积构成,它们使用了 LReLU 激活,并且除第一个卷积外都使用了实例归一化。之后使用一个 sigmoid 激活的卷积,以得到单个输出。 该网络有两个版本:一个生成 128×128 图像的低分辨率版本,一个生成 256×256 图像的高分辨率版本。其中高分辨率版本的解码器经过简化和扩大,包含 6 个扩大模块与残差模块构成的 lattice。除非另有说明,否则下面给出的实验都是用高分辨率模型完成的。 实验
图 3:视频身份消除的结果示例。图中给出了原始帧、经过转变的帧和目标帧。经过修改的帧看起来与原始帧类似,但其身份完全不同。 为了测试这种方法的结果是否自然,作者用人类观察者对结果进行了检验。尽管人类观察者(n=20)完全清楚这些视频经过了怎样的修改,但人类的表现仍接近随机乱选,他们的平均成功率为 53.6%(SD=13%),见表 2(a)。
表 2:(a)视频用户研究——用户区分真实视频与经过修改的视频的成功率,不管是低分辨率模型还是高分辨率模型。接近 50% 更好。(b)根据静态图像用户研究,每一列都是一个不同个体。第一行:相册图像,即要求用户选择的身份来源的相册图像;第二行:输入图像;第三行:第二行图像经过身份消除后的版本。(c)识别这五个人的真实图像的混淆矩阵(对照组)。(d)基于身份消除后的图像,识别结果的混淆矩阵。 人们可以不使用人脸线索就识别出熟悉的身份。为了确定在围绕一个人脸身份给定相似的语境(头发、性别、族裔)时,被感知的身份会以一种几乎不可能落实的方式发生变化,作者使用来自同一档电视节目的同一族裔和相似发型的五个人的图像进行了实验。他们收集了两组图像:参考图像(相册)和源图像。作者使用新提出的方法对源图像进行了修改,并也将它们用作目标,见表 2(b)。从表 2(c) 的混淆矩阵可以看到,用户可以基于源图像轻易识别出正确的相册图像。但是,如表 2(d) 所示,在消除了身份之后,答案与真实身份的相关性很小。 下表 4 给出了自动身份识别的结果,其中对低分辨率和高分辨率模型均进行了测试。
表 4:在包含 54000 人的数据集上识别正确的结果(SD 是指标准差)。评估是在预训练的 LResNet50E-IR ArcFace 网络上完成的。 下表 5 给出了给定一个人的身份消除 LFW 图像对的结果(身份消除应用在每对图像的第二张图像上)。
表 5:在 LFW 基准上的结果,使用的模型是在 VGGFace2 或 CASIA-WebFace 上训练的 FaceNet。结果是在误报率为 0.001 时的正确率。
下图 4 比较了新方法与 [31] 的结果。
图 4:(a)来自 [31] 的输入图像,(b)新方法的结果,(c)[31] 的结果。新方法保持了表情、姿势和光照条件。此外,新方法没有将同一新身份分配给不同的人。 为了凸显新方法在拉远身份距离的同时维持像素空间相似性的能力,作者也比较了 [41] 的方法。
图 7:与 [41] 的比较(来自该论文的示例图像)。(a)原始图像(也被用作新方法的目标)。(b)新方法生成的结果。(c)[41] 的结果。(d)[41] 使用的目标。 作者比较了两种方法得到的身份消除图像与原始图像之间的距离(下表 3),结果表明新方法得到的像素差异更小,同时人脸描述量的距离又更大。
表 3:对于图 7 中的图像,原始图像与身份消除图像之间的距离。 下图 8 给出了与 [49] 的结果的比较。
图 8:与 [49] 的比较。 下图 5 给出了与 [43,44] 的结果比较。
图 5:(a)来自 [43, 44] 的输入图像,(b)新方法的结果,(c)[43] 的结果(第一行),[44] 的结果(第二和三行)。 为了进一步展示新方法的稳健性,作者还在来自 [36] 的非常困难的输入上直接应用了新提出的方法。如下图 6 所示,即使光照条件不佳,新方法仍能有稳健的表现。
图 6:在 NIST 人脸识别挑战赛 [36] 中非常困难的样本上应用身份消除的结果。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。