2020年9月26日星期六

奥特曼、小猪佩奇、海贼王…AI人脸识别终于对他们下手了!

编辑 | 陈大鑫
奥特曼真粉大挑战!
挑战1:
请问上图中的奥特曼从左往右分别是?

这还不简单?——艾斯、杰克、奥特曼(初代)、赛文、泰罗。
不错不错,再来一次~

挑战2:请问下图中的奥特曼分别是?
啊这?
如果这些奥特曼全部都看过一遍,识别起来好像也不是很难?
那么对AI来说呢?
AI人脸识别这件事,大家早已司空见惯,而猪脸识别似乎也不会令人增加保护欲。
那么如果是下面这些爱踩泥坑的猪呢?

会不会都识别成吹风机?
下面的佩奇和路飞在不同的视角、光照、遮挡等环境下能不能被AI识别出来?

为了回答这件事情,作为小猪佩奇和海贼王的播放平台爱奇艺下定决心:
——首先给AI充个“会员”!
这里的会员指的是iCartoonFace:一个卡通人脸识别的基准数据集,爱奇艺与此同时设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。
这些数据集的相关成果已经发表成论文并被ACM MM2020接收。
论文链接:https://ift.tt/3c9JwQt
1
论文背景
近年来,伴随着卡通产业的迅猛发展,卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。
同时伴随着人脸识别技术的发展,人物识别精度大幅提升,在Labeled Faces in the Wild(LFW)等图片数据集上,人脸识别精度甚至超过了人类的识别能力。
然而,对卡通人物身份的识别,却鲜有研究,相关的数据集也比较少,如下表1。对于深度学习来说,这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模、高质量的卡通识别数据集,并对卡通人物身份信息进行识别,则至关重要。
表1 卡通人物识别相关数据集对比
2
iCartoonFace数据集:
1、数据集构建
为了减轻标注人工的工作量,我们设计了一种半自动数据集构建框架来得到iCartoonFace数据集,如下图1。
我们的框架可以分为以下三个阶段:
  • 分层数据收集:从卡通专辑到卡通人物名称,再到卡通人物图片依次获取。
  • 数据过滤过程:利用卡通人脸检测、特征提取器、特征聚类等进行噪声数据过滤,其中特征提取器随着标注数据的增多而性能不断增强。
  • Q/A问答:标注人员根据特征聚类的结果,回答鸣人和超人的不同。
图1 半自动数据集构建框架
2、数据集统计信息
iCartoonFace识别数据集是一个大规模、高质量的卡通人物身份识别数据集,如图2所示,iCartoonFace识别数据集的统计特性如下:
大规模:iCartoonFace识别数据集包含5013个卡通人物、389,678张图片,来源于1,302卡通专辑,是已知目前最大的手工标注卡通人物身份识别数据集。
高质量:数据集手工标注完成之后,我们采用交叉验证的方式保证数据集标注错误率在5%以内。所有图片的分辨率高于100x100,超过65%的图片分辨率高于200x200。
多样性和挑战性:从图3可以看到,不同的卡通人物具有非常相近的外形特征,同一个的卡通人物由于的表情、遮挡、角度等影响导致外形具有非常大的差异性。
图2 iCartoonFace识别数据集统计信息
3、数据集挑战性
给定一张Probe集中的照片和至少包含一张相同卡通人物身份图片的Gallery集,算法需要根据与给定图片中卡通人物身份相似度对Gallery集中所有图片进行排序。
具体来说,Probe集中包含N个卡通人物、每个卡通人物有M张照片。对于每个卡通人物的M张照片,每次选取一张图片作为probe照片,然后把剩余的M-1张,再单独每一张和distractors一起组成Gallery集,然后进行比对,然后计算rank1精度。经过N*M*(M-1)次比对后,得到的平均rank1精度作为本次任务的评价指标。
在iCartoonFace卡通识别数据集中,有四类代表性的挑战,如图3所示:
a)类间相似度高:来自不同人物ID的两张图片外观看起来非常相似;
b) 视角变化:同一个人物有不同角度的图片;
c) 遮挡问题:人物面部会受到场景中其他对象的遮挡;
d) 光线变化:所有的这些识别问题中遇到的问题,都需要我们的识别算法具有足够的鲁棒性。
图3  iCartoonFace卡通识别数据集代表性的挑战
3
方法
我们提出了卡通和真人多人物训练框架如下图4所示,主要分为分类损失函数、未知身份拒绝损失函数和域迁移损失函数。
图4 卡通和真人多任务训练框架
分类损失函数:主要用来对卡通脸和真人脸进行分类,典型的表达式如下:
未知身份拒绝损失函数:在不同域之间进行无监督正则化投影,表达式如下:
域迁移损失函数:用来减低卡通和真人域之间的差异性,对他们的相关性进行约束,表达式如下:
4
实验
1、哪种算法更适合卡通识别?
我们比较了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL几种算法的性能如下图5所示。结果表明,ArcFace+FL的性能相比其他算法无论是在低Rank还是高Rank下都更优。
图5 五种算法的CMC曲线图
2、人脸识别的信息是否有助于卡通识别?
我们测试了对于卡通检测和卡通识别两个任务,人脸信息是否对卡通的检测识别有帮助。
从表2可以发现,与F-ArcFace(即ArcFace+FL)相比,本文提出的方法的人脸识别性能将略有提高,图6同样验证了加入人脸识别的数据后卡通检测的性能也能得到提高。
图6 卡通检测两种算法的PR曲线
表2 算法的性能对照表
3、对于卡通识别来说上下文信息是否有用?
卡通脸是识别一个卡通人物身份的最主要区别部分。然而,在某些情况下仅仅依靠卡通人脸不足以区分不同的卡通人物。
我们测试了算法在卡通人脸基础上扩充不同比例下的性能如图7所示,图中表示了在包含更多的上下文信息下会获得更高的识别性能。
图7 在不同扩充比例下的CMC曲线
5
总结展望
爱奇艺开放了目前全球最大的手工标注卡通人物检测数据集与识别数据集iCartoonFace,包含超过5000个卡通人物、40万张以上高质量实景图片,这使得对卡通人脸识别技术的研究拥有了强有力的数据土壤。
针对卡通人物的特性进行更加深入的模型优化研究,设计卡通真人多任务学习框架,可以有效地提高卡通人物识别性能。未来,加深对卡通人物识别能力的研究,设计更加鲁棒性的算法,从而可以处理遮挡、侧脸、模糊、变身等多种情况,使得识别的人数更多、可识别的样式更丰富,是一个非常有挑战性的问题。
对卡通人物进行识别具有广泛的应用场景,不仅可以用于视频理解对视频进行结构化分析,还可以在智能剪辑创作、图片搜索、人物审核、广告等场景中得到广泛应用。例如图片搜索中加入卡通人物身份特征,使得搜索更加准确,通过分析视频中卡通人物的身份点位,可以提供给创作者进行智能剪辑,也可以用来对恶搞的讽刺漫画或者卡通风格人物进行审核辨识。
通过人脸识别技术对视频中的人物信息进行结构化分析,目前已在爱奇艺公司的多个产品中应用,例如“奇观”、“只看他”等,给用户带来了良好的交互体验。
杂谈
最后,不知道大家还记不记得两个月之前的一则新闻:“奥特曼粉丝卧底5年,终于从海贼王粉丝手里夺回了贴吧”,具体事件不再展开,但是这个事件里面所涉及到的动漫人物,一个是海贼王的艾斯,一个是奥特曼里面的艾斯:
如果交给AI去视觉识别这两个动漫人物,那真是太简单了,但是这背后的真假粉丝以及卧底五年的牺牲,就不是AI可以简简单单识别出来的了,加上NLP或许也不够。
人工智能,还有一段很长的路要走~
参考文献:
[1] Zheng, Yi, et al. "Cartoon Face Recognition: A Benchmark Dataset." arXiv (2019): arXiv-1907.
[2] Liu, Yuanliu, et al. "iQIYI Celebrity Video Identification Challenge." Proceedings of the 27th ACM International Conference on Multimedia. 2019.
[3] Liu, Yuanliu, et al. "iqiyi-vid: A large dataset for multi-modal person identification." arXiv preprint arXiv:1811.07548 (2018).
[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.
[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.
[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).
[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.
[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.
[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.
[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.
[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.
[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.
[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.



点击阅读原文,直达“CCF-NLP走进高校之郑州大学”直播页面!
继续阅读

没有评论:

发表评论

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...