AI 人工智能新闻资讯: 凭一张照片找到视频中你所有的镜头，包括背影丨ECCV2018

2018年8月1日星期三

凭一张照片找到视频中你所有的镜头，包括背影丨ECCV2018

伊瓢发自凹非寺量子位报道 | 公众号 QbitAI

商汤最近发了一篇ECCV，搞了一个巨大的电影片段数据库。

别担心，商汤可不是准备拍电影，而是提出了新的视频找人方法——也就是，无论一位电影明星演的是青春少女还是白发老人，无论TA露出了正脸还是侧颜，无论影片的镜头明亮鲜丽还是灰黄暗淡，AI都能精确的找到TA，TA的正脸、身姿和背影。

除了统计电影明星的出镜率，视频找人最主要的作用是抓罪犯，比如我国知名除暴安良艺术家张学友老师（的演唱会上的警察用的AI）就十分擅长这个技能。

像演唱会这种公共场合，无数摄像头采集下了现场几乎所有的场景，而出没在演唱会的犯罪嫌疑人也难逃一拍，如果AI找到视频中犯罪嫌疑人的脸，警察叔叔可以当场迅速出动，拿下这名犯罪嫌疑人。

不过，研究人员并不认得那么多逃犯，也不能从警察叔叔那里要监控视频，于是，他们机智的想到了电影明星——创建了一个名为Cast Search in Movies（CSM）的数据集，其中包含来自192部电影、1218个演员的12.7万个片段，所有片段的标识都是手动注释的，并且每个演员身份还附带参考照片。

数据集中包含每位演员在多部电影里出演的角色。如果一部电影的角色太多，就只保留10个最主要的角色。

整体来看，比较一下其他数据集，CSM至少在数量上十分领先了，还可以执行搜索任务。

不过，由于数据库是电影明星和电影中的角色，现代电影工业复杂的服化道系统可能要把这个AI刁难一下了，毕竟，化妆技术可以把30岁的演员变成16岁的小萝莉，也能变成50岁的老阿姨。

所以，要如何保证AI可以识别出这些和真人相貌差别巨大的角色呢？需要用到竞争共识（Competitive Consensus）的方法。

上面这张图，展示了竞争共识和传统的现行扩散方法在标签传播上的差异。

图中（左侧）展示了神经网络的四个节点，旁边的数字是它们的概率向量。我们需要从左侧节点向右侧节点传播标签，但是还有两个邻居节点是噪声。

右边是线性扩散和竞争共识的计算过程。可以看到，在噪声很多的图中，以传播最确信信息为目标的竞争共识更健壮。

竞争共识处理的结果不错，已有的跨视频搜索人物的方法，mAP最高为42.16％，而本篇论文中的新方法将mAP提高到了62.27％。

同一演员扮演的角色，无论正面、侧面还是反面，无论扮靓还是扮酷，该系统都成功的把他们认了出来。

比如，在《复仇》中饰演Victoria Grayson的女演员玛德琳·斯托：

数据集中，不管是正脸：

还是挡脸，都可以识别出来。

甚至背影都能认出来。

具体效果可以看下面的视频：

作者

这篇论文的三位作者中，除了大家熟悉的商汤科技联合创始人林达华大牛之外，一作是林达华的学生，香港中文大学-商汤科技联合实验室的博士生黄青虬；二作是商汤科技研究院高级研究员刘文韬。

传送门

Person Search in Videos with One Portrait Through Visual and Temporal LinksQingqiu Huang, Wentao Liu, 林达华arXiv:https://ift.tt/2LIeaqd

不过，数据集的链接目前还是"coming soon"的状态。

— 完 —

欢迎大家关注我们的专栏：量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复"招聘"两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

via 量子位 - 知乎专栏 https://ift.tt/2O4erjR

RSS5

IFTTT

没有评论:

发表评论