2017年12月1日星期五

GAN能合成2k高清图了!还能手动改细节 | 论文+代码,英伟达出品

夏乙 安妮 编译整理量子位 出品 | 公众号 QbitAI

输入一张语义地图——

就能为你还原整个世界。

输入一张亲妈都认不出来的语义标注图——

为你合成一张真实的人脸。

聪明的你可能已经发现,这个名为pix2pixHD的神奇功能,可以通过条件生成式对抗网络(条件GAN),将一张语义标注的图像还原成现实世界的样子。pix2pixHD合成的图像分辨率可高达2048x1024,和CRN、pix2pix等其他图像合成工具相比可以发现,pix2pixHD的效果显然领先了好几条街!

有趣的是,连李飞飞高徒、现特斯拉人工智能与自动驾驶视觉部门主管Andrej Karpathy也在Twitter上大呼"非常鹅妹子嘤!"

到底是怎么一回事?上车,我们前去看看论文。

效果惊人

pix2pixHD具有通过语义标注的图像还原到现实世界的能力,并且还能根据需要轻松修改和搭配图像。你可以一键更换车辆的颜色和型号,改变街道的类型,甚至还可以移除图像内景物甚至增加图像中的树木。

一张语义地图背后,是丰富的现实世界。

pix2pixHD不仅可以将街景语义图转化为真实图像,甚至还可以转化人脸。

和街景类似,根据语义标注的人脸图像,我们可以选择组合人物的眼睛、眉毛和胡须等五官特征,还能在标注图上调整五官的大小。

无论是在街景中增加和减少物体,还是改变人脸的五官,都是通过一个可编辑的界面完成的。这个界面神似众多穿衣搭配的Falsh小游戏的界面,实现了"一键换车"和"一键换眼",长胡子、改肤色,也都是点一下鼠标的事。

只能搞定256×256的pix2pix,怎样变成这个"鹅妹子嘤"pix2pixHD的呢?我们来看看技术细节。

网络架构

要生成高分辨率图片,直接用pix2pix的架构是肯定不行的。作者们在论文中说,他们试过了,训练不稳定,生成图片的质量也不如人意。

还是得在它的基础上,进行改造。

于是,他们在pix2pix的基础上,增加了一个"从糙到精生成器(coarse-to-

fine generator)"、一个多尺度鉴别器架构和一个健壮的对抗学习目标函数。

从糙到精生成器

生成器包含G1和G2两个子网络,G1是全局生成网络,G2是局部增强网络。两个子网络结合起来使用,结构如下图所示:

其中G1计算的分辨率是1024×512,而G2将输出图像的分辨率扩大到4倍,也就是横向纵向分别乘以2,2048×1024。如果想生成分辨率更高的图片,可以再加一个同样的局部增强网络,输出4096×2048的图。

在训练这个生成器时,先训练全局生成器,然后训练局部增强器,然后整体微调所有网络的参数。

多尺度鉴别器

高分辨率图片不仅生成起来难,让计算机鉴别真假也难。

要鉴别高分辨率图像是真实的还是合成的,就需要一个感受野很大的鉴别器,也就是说,要么用很深的网络,要么用很大的卷积核。这两种方法都会增加网络容量,导致容易过拟合,训练时也都会占用更多内存。

跟生成器抢内存?不行不行。于是这篇论文的作者们提出了一种新思路:多尺度鉴别器,也就是用3个鉴别器,来鉴别不同分辨率图片的真假。

如上图所示,这三个鉴别器D1、D2和D3有着相同的网络结构,但是在不同尺寸的图像上进行训练。通过对高分辨率图像进行两次降低采样,生成3种大小的图像,然后训练鉴别器D1、D2和D3分别来辨别这3种尺寸图像的真假。

最粗糙尺度上的鉴别器感受野最大,负责让图像全局和谐,最精细尺度的鉴别器负责引导生成器生成出精致的细节。

改良损失函数

在Conditional GAN的目标函数LGAN(G, D)

的基础上,pix2pixHD又基于鉴别器引入了一个特征匹配损失,生成器训练之后所生成的各种尺寸图像越来越自然,损失在也随之稳定。

将鉴别器Dk第i层的特征提取器表示为D(i)k,特征匹配损失函数可以表示如下:

完整的目标函数如下,包含GAN损失和特征匹配损失:

从语义标记图到合成图像

图像生成经常用到语义标记图(semantic lable maps),不过本文作者们认为,实例图(instance map)里最重要信息,并没有包含在语义标记图中。

比如说上图a里,所有汽车连成一体,无法分开,这就需要先计算出如上图b所示的实例边界图(instance boundary map)。

用了实例边界图,生成的图像就不会出现下图a中两辆汽车细节不清楚的情况了。

解决了语义标记图自身的缺陷之后,还有一个问题:我们前面所说的图上每个物体都能单独控制,是怎样实现的呢?

在pix2pixHD中,作者们为了生成低维特征,训练了一个编码网络E来寻找和图中每个实例的真实目标相对应的低维向量。另外,还使用了一个标准的编码器-解码器组成的编码架构。

为了确保每个实例内部的特征都协调,作者们在编码器的输出上添加了一个实例级平均池化层,来计算实例的平均特征。然后这个将这个平均特征广播到实例中的所有像素位置上,如下图所示:

从pix2pix到HD

这个pix2pixHD,从名字到架构,都可以说是pix2pix的升级版。

这篇新论文主要来自英伟达,不过混入了一位加州大学伯克利分校的作者Jun-Yan Zhu,清华CMU伯克利系列学霸、猫奴、也是pix2pix的二作。

他所在的实验室,在图像合成和风格迁移领域贡献了大量论文,还非常良心地都开源了代码。

其中,pix2pix更是流传甚广,比如说不少广为人知的线稿变照片demo,都是基于他们的pix2pix,其中最知名&好玩的,大概要数随手就能画只猫的edges2cats。

画猫的demo大受欢迎,以至于后来被网友们玩出了各种各样的新高度,量子位之前整理的灵魂画师合辑,就收集了其中不少"杰作"。

同样基于pix2pix,画鞋画包画房子的都有,这里有一系列demo,都可以上手试一试:http://ift.tt/2mHZeaw

还有用它来把涂鸦变成人脸的,用它做色彩搭配的,非常热闹。

如今,有了高清版的pix2pixHD,同样开源了代码,不知道又要玩出什么新花样了。

期待~

相关链接

pix2pixHD

主页:http://ift.tt/2zGhSXz

代码:http://ift.tt/2iyskNn

论文:http://ift.tt/2AAPrOd

pix2pix

主页:http://ift.tt/2f15ZF5

Jun-Yan Zhu

主页:http://ift.tt/2rfaUrg

—完—

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AAPsBL
RSS Feed

RSS5

IFTTT

GAN能合成2k高清图了!还能手动改细节 | 论文+代码,英伟达出品

夏乙 安妮 编译整理量子位 出品 | 公众号 QbitAI

输入一张语义地图——

就能为你还原整个世界。

输入一张亲妈都认不出来的语义标注图——

为你合成一张真实的人脸。

聪明的你可能已经发现,这个名为pix2pixHD的神奇功能,可以通过条件生成式对抗网络(条件GAN),将一张语义标注的图像还原成现实世界的样子。pix2pixHD合成的图像分辨率可高达2048x1024,和CRN、pix2pix等其他图像合成工具相比可以发现,pix2pixHD的效果显然领先了好几条街!

有趣的是,连李飞飞高徒、现特斯拉人工智能与自动驾驶视觉部门主管Andrej Karpathy也在Twitter上大呼"非常鹅妹子嘤!"

到底是怎么一回事?上车,我们前去看看论文。

效果惊人

pix2pixHD具有通过语义标注的图像还原到现实世界的能力,并且还能根据需要轻松修改和搭配图像。你可以一键更换车辆的颜色和型号,改变街道的类型,甚至还可以移除图像内景物甚至增加图像中的树木。

一张语义地图背后,是丰富的现实世界。

pix2pixHD不仅可以将街景语义图转化为真实图像,甚至还可以转化人脸。

和街景类似,根据语义标注的人脸图像,我们可以选择组合人物的眼睛、眉毛和胡须等五官特征,还能在标注图上调整五官的大小。

无论是在街景中增加和减少物体,还是改变人脸的五官,都是通过一个可编辑的界面完成的。这个界面神似众多穿衣搭配的Falsh小游戏的界面,实现了"一键换车"和"一键换眼",长胡子、改肤色,也都是点一下鼠标的事。

只能搞定256×256的pix2pix,怎样变成这个"鹅妹子嘤"pix2pixHD的呢?我们来看看技术细节。

网络架构

要生成高分辨率图片,直接用pix2pix的架构是肯定不行的。作者们在论文中说,他们试过了,训练不稳定,生成图片的质量也不如人意。

还是得在它的基础上,进行改造。

于是,他们在pix2pix的基础上,增加了一个"从糙到精生成器(coarse-to-

fine generator)"、一个多尺度鉴别器架构和一个健壮的对抗学习目标函数。

从糙到精生成器

生成器包含G1和G2两个子网络,G1是全局生成网络,G2是局部增强网络。两个子网络结合起来使用,结构如下图所示:

其中G1计算的分辨率是1024×512,而G2将输出图像的分辨率扩大到4倍,也就是横向纵向分别乘以2,2048×1024。如果想生成分辨率更高的图片,可以再加一个同样的局部增强网络,输出4096×2048的图。

在训练这个生成器时,先训练全局生成器,然后训练局部增强器,然后整体微调所有网络的参数。

多尺度鉴别器

高分辨率图片不仅生成起来难,让计算机鉴别真假也难。

要鉴别高分辨率图像是真实的还是合成的,就需要一个感受野很大的鉴别器,也就是说,要么用很深的网络,要么用很大的卷积核。这两种方法都会增加网络容量,导致容易过拟合,训练时也都会占用更多内存。

跟生成器抢内存?不行不行。于是这篇论文的作者们提出了一种新思路:多尺度鉴别器,也就是用3个鉴别器,来鉴别不同分辨率图片的真假。

如上图所示,这三个鉴别器D1、D2和D3有着相同的网络结构,但是在不同尺寸的图像上进行训练。通过对高分辨率图像进行两次降低采样,生成3种大小的图像,然后训练鉴别器D1、D2和D3分别来辨别这3种尺寸图像的真假。

最粗糙尺度上的鉴别器感受野最大,负责让图像全局和谐,最精细尺度的鉴别器负责引导生成器生成出精致的细节。

改良损失函数

在Conditional GAN的目标函数LGAN(G, D)

的基础上,pix2pixHD又基于鉴别器引入了一个特征匹配损失,生成器训练之后所生成的各种尺寸图像越来越自然,损失在也随之稳定。

将鉴别器Dk第i层的特征提取器表示为D(i)k,特征匹配损失函数可以表示如下:

完整的目标函数如下,包含GAN损失和特征匹配损失:

从语义标记图到合成图像

图像生成经常用到语义标记图(semantic lable maps),不过本文作者们认为,实例图(instance map)里最重要信息,并没有包含在语义标记图中。

比如说上图a里,所有汽车连成一体,无法分开,这就需要先计算出如上图b所示的实例边界图(instance boundary map)。

用了实例边界图,生成的图像就不会出现下图a中两辆汽车细节不清楚的情况了。

解决了语义标记图自身的缺陷之后,还有一个问题:我们前面所说的图上每个物体都能单独控制,是怎样实现的呢?

在pix2pixHD中,作者们为了生成低维特征,训练了一个编码网络E来寻找和图中每个实例的真实目标相对应的低维向量。另外,还使用了一个标准的编码器-解码器组成的编码架构。

为了确保每个实例内部的特征都协调,作者们在编码器的输出上添加了一个实例级平均池化层,来计算实例的平均特征。然后这个将这个平均特征广播到实例中的所有像素位置上,如下图所示:

从pix2pix到HD

这个pix2pixHD,从名字到架构,都可以说是pix2pix的升级版。

这篇新论文主要来自英伟达,不过混入了一位加州大学伯克利分校的作者Jun-Yan Zhu,清华CMU伯克利系列学霸、猫奴、也是pix2pix的二作。

他所在的实验室,在图像合成和风格迁移领域贡献了大量论文,还非常良心地都开源了代码。

其中,pix2pix更是流传甚广,比如说不少广为人知的线稿变照片demo,都是基于他们的pix2pix,其中最知名&好玩的,大概要数随手就能画只猫的edges2cats。

画猫的demo大受欢迎,以至于后来被网友们玩出了各种各样的新高度,量子位之前整理的灵魂画师合辑,就收集了其中不少"杰作"。

同样基于pix2pix,画鞋画包画房子的都有,这里有一系列demo,都可以上手试一试:http://ift.tt/2mHZeaw

还有用它来把涂鸦变成人脸的,用它做色彩搭配的,非常热闹。

如今,有了高清版的pix2pixHD,同样开源了代码,不知道又要玩出什么新花样了。

期待~

相关链接

pix2pixHD

主页:http://ift.tt/2zGhSXz

代码:http://ift.tt/2iyskNn

论文:http://ift.tt/2AAPrOd

pix2pix

主页:http://ift.tt/2f15ZF5

Jun-Yan Zhu

主页:http://ift.tt/2rfaUrg

—完—

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2AAPsBL
RSS Feed

RSS5

IFTTT

真便宜。买买买!

hello,我票贩子又来了,快上车:

知乎 Live - 全新的实时问答

我就不说通过这个live你能获得什么了,自己感悟吧。嘘

我们这次live请到了以下各位:

科大讯飞执行总裁 @胡郁 (胡郁,中国科学技术大学博士,现任科大讯飞股份有限公司执行总裁,消费者 BG 总裁。)

分割线:知乎 Live - 全新的实时问答

知乎围棋大V @云天外 (卫泓泰,本次「人工智能」系列 Live 的组织者和策划者,致力于提供数据采集分析的解决方案,制定投资策略。)

分割线:知乎 Live - 全新的实时问答

计算广告技术专家 @北冥乘海生 (刘鹏,清华大学信息与通信工程博士,《计算广告》作者,大数据&人工智能资深从业者,参与过微软亚洲研究院语音、图像识别的前沿研究,参与创建雅虎北京研究院,目前是 360 商业化首席架构师)

分割线:知乎 Live - 全新的实时问答

晶泰科技联合创始人 @小赖 (赖力鹏,北京大学物理学、数学双学位学士、芝加哥大学物理学博士、麻省理工学院博士后,目前是晶泰科技(XtalPi)联合创始人,负责研究人工智能在化学、物理、材料等领域的应用)

分割线:知乎 Live - 全新的实时问答

泛化智能(gitech)CEO @王汉洋 (王汉洋,曾就读于滑铁卢大学数学系, 2015 年回国创办人工智能公司「泛化智能」,目前是「泛化智能」 CEO )

分割线:知乎 Live - 全新的实时问答IPN创始人 @不鳥萬如一 (不鳥萬如一,《一天世界》《灭茶苦茶》作者,IPN 创始人)

分割线:知乎 Live - 全新的实时问答 甲子光年创始人 @张一甲 (张一甲,毕业于北京大学,获得数学、经济学双学位,曾任职于奥美、百度,目前是科技智库「甲子光年」的创始人与 CEO,2017 年分别入选「福布斯亚洲 30 Under 30」、「福布斯中国 30 Under 30」。)

分割线:知乎 Live - 全新的实时问答

景略集智创始人&CEO @Kaiser (王文凯,知乎 ID Kaiser ,北京航空航天大学飞行器动力工程学士、帝国理工学院计算流体力学硕士,景略集智创始人 & CEO 。曾于比利时从事数值计算软件研发工作,目前正在创业,致力于人工智能相关人才的培训。)

分割线:知乎 Live - 全新的实时问答

知乎数据大V@路人甲 (钟志远,是一名开发出身的数据分析师,曾经参与过社区儿童教育和差旅酒店社交产品的创业,目前在一家社交平台负责用户增长。)

分割线:知乎 Live - 全新的实时问答

造数创始人 @黄震昕 (造数科技创始人黄震昕,毕业于电子科技大学,大学时曾创建大数据研究团队 SysLab,此后参与创立新零售平台「快快鱼」,服务近千所高校的近百万用户。)

分割线:知乎 Live - 全新的实时问答

神策创始人 @桑文锋 (桑文锋,神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,之前任职于百度,拥有 8 年大数据从业经历,2017 年 7 月入选第六届中国财经峰会「2017 最佳青年榜样」。)



via 集智 - 知乎专栏 http://ift.tt/2jA2pkO
RSS Feed

RSS7

IFTTT

不得了,AI会看监控了,小偷你压力大吗?

原文链接:

http://ift.tt/2B2vLj2

作者:Larry Alton

欢迎到景略集智(http://ift.tt/2AnKG83

想想过去十年人工智能有了这么大的发展,内心都仿佛有只蝴蝶在飞舞,但是最棒的还在后头呢。眼瞅着2018年就要来了,AI界又出现一大波给力的进步,如滔滔江水连绵不绝,其中就有一项很特别的技术——会看监控的AI。

过去几年,研究者们不断在AI和机器学习领域取得成果。不管是IBM的Watson在智力比赛中打败了最聪明的人类,还是Google的AI能自己写诗了,有太多的例子证明AI技术是如此的伟大。

不过直到现在,很多AI应用却是有趣胜过有用。但是,时代在改变,除了医疗、金融等这些领域的AI应用取得重大突破以外,AI也开始在安保领域大展身手。具体来说,就是AI在视频监控领域的应用。

AI在哪些方面可以助力视频监控呢?我们来瞧瞧:

AI可以弥补人类的缺陷

创业者Bob Beachhler解释说:"视频监控人员面临的一个大问题就是很容易疲劳。因为人的大脑天然会在注意力集中和注意力分散两种状态下来回交替。在监控视频的时候,注意力分散可能导致可怕的后果。所以,如果我们能有一套从不会分散注意力的监控,能和人类合作消除这种错误,该有多好。这就是AI在视频监控中要干的活。"

虽然视频监控具有历史记录功能,让人们在需要的时候可以查看,但是它从来不能对监控人员大喊一声:"喂老铁,这儿不太对劲!"除了经常导致假警报的运动检测,现在的视频监控系统没有任何能弥补人类大脑缺陷的功能。

不过好在有人工智能。就在去年,机器视觉研发商Movidius和安保设备制造商Hikvisin建立了合作关系,联合研发一款配有神经网络AI的摄像头,能够注意镜头中的异常状况,提供实时警报。

这款AI监控的应用实例是监控一家商店,假如一个人在某个时段内四处溜达,晃来晃去,或者多次返回同一地点,AI就会注意到这一点,而有时人类视频监控人员可能会注意不到这些行为,然后AI会向人类发出需要进一步调查的警报。

高超的人脸识别

如果发生犯罪事件,事后查看摄像头录像寻找嫌疑人,常常是件很蛋疼的工作。而且更不幸的是,只有人们辨认出画面上的某个人后,才能识别出犯罪分子。像MegaFace这样的先进AI软件正在解决这个难题。

MegaFace软件源自华盛顿大学的一个项目。研究人员训练了一个数据集,包含了照片分享网站Flickr上67万2000个人的将近5百万张照片。在测试中,系统的准确率达到了75%,,可以在100万张不同面部图像数据集里匹配同一个人的两个图像。如果允许系统猜测10次,准确率会提高到90%。

显而易见,面部识别技术与视频监控相结合,有着巨大的应用潜力。能够帮助执法机构在人群中发现嫌疑人的脸,这将有助于抓捕罪犯,甚至能在第一时间预防犯罪发生。

读到这,可能有人就想,我蒙上脸不就完了!

哦抱歉,不管你是帽子围巾墨镜一起招呼还是往头上套个丝袜,全都挡不住AI。

今年8月底,来自剑桥大学和印度国家技术学院的研究人员联合发布了一篇论文《利用空间融合卷积神经网络通过面部关键点进行伪装人脸识别》(Disguised Face Identification (DFI) with Facial KeyPoints using Spatial Fusion Convolutional Network)。

在论文中,研究人员介绍它们使用深度学习算法和卷积神经网络,搭建了一种脸部关键点检测框架,然后找出人脸上的关键点,并分析这些点之间的距离。虽然最终测试结果显示,对于戴着帽子和围巾的人,该算法识别的正确率为56%。如果人脸上还戴着眼镜,正确率将进一步下降至43%。虽然这份结果并不完美,但这种算法的研究刚刚起步,未来还有非常大的进步空间,最重要的是,它表明在面部被部分遮掩的情况下,进行人脸识别仍是有可能的。

图:用来测试算法的遮掩人脸照片。

对犯罪行为实时反应

人们希望这些新型AI监控系统能够实时发现犯罪行为。比如,Movidius系统能够识别无人看管的物体。该系统可以实际应用在机场和火车站。AI摄像头能够识别无人看管的包,追踪它们被留在那儿的时间,然后向现场安保人员发出警报,从而进一步调查可疑活动。

还有一个重要的例子,AI监控系统已经被用来训练识别小偷在偷窃前和偷窃期间使用的肢体语言和动作。当这些行为被识别出来时,安保人员就可以安排人前去检查情况。

AI和视频监控的未来

AI在许多行业和小众领域都有着巨大的应用潜力,但我们很难无视AI在安保领域带来的巨大变革。无论是用来监控商店、房主保护个人财产,还是执法机构识别罪犯行为,AI都有很多用处。例如安卓之父Andy Rubin就主持研发了一款AI监控设备Lighthouse,将3D感知技术和人脸识别相结合,能识别出谁在你家、谁进了你家、进去的是人还是阿狗阿猫。Lighthouse还可连到手机APP,实时查看监控。

想想未来几年人工智能的进步,心里就乐开了花!



via 集智 - 知乎专栏 http://ift.tt/2Ap2QXk
RSS Feed

RSS7

IFTTT

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...