2017年11月6日星期一

深度学习在单图像超分辨率上的应用:SRCNN、Perceptual loss、SRResNet

本文介绍了三种不同的卷积神经网络(SRCNN、Perceptual loss、SRResNet)在单图像超分辨率集上的实际应用及其表现对比,同时也探讨了其局限性和未来发展方向。


单图像超分辨率技术涉及到增加小图像的大小,同时尽可能地防止其质量下降。这一技术有着广泛用途,包括卫星和航天图像分析、医疗图像处理、压缩图像/视频增强及其他应用。我们将在本文借助三个深度学习模型解决这个问题,并讨论其局限性和可能的发展方向。


我们通过网页应用程序的形式部署开发结果,允许在自定义图像上测试文中的大多数方法,同样你也可以查看我们的实例:http://ift.tt/2AkMj61


单图像超分辨率:问题陈述


我们的目标是采用一个低分辨率图像,产生一个相应的高分辨率图像的评估。单图像超分辨率是一个逆问题:多个高分辨率图像可以从同一个低分辨率图像中生成。比如,假设我们有一个包含垂直或水平条的 2×2 像素子图像(图 1)。不管条的朝向是什么,这四个像素将对应于分辨率降低 4 倍的图像中的一个像素。通过现实中的真实图像,一个人需要解决大量相似问题,使得该任务难以解决。


图 1:从左到右依次是真值 HR 图像、相应的 LR 图像和一个训练用来最小化 MSE 损失的模型的预测。


首先,让我们先了解一个评估和对比模型的量化质量检测方法。对于每个已实现的模型,我们会计算一个通常用于测量有损压缩编解码器重建质量的指标,称之为峰值信噪比(PSNR/Peak Signal to Noise Ratio)。这一指标是超分辨率研究中使用的事实标准。它可以测量失真图像与原始高质量图像的偏离程度。在本文中,PSNR 是原始图像与其评估版本(噪声强度)之间图像(信号强度)可能的最大像素值与最大均方误差(MSE)的对数比率。


PSNR 值越大,重建效果越好,因此 PSNR 的最大值化自然会最小化目标函数 MSE。我们在三个模型中的两个上使用了该方法。在我们的实验中,我们训练模型把输入图像的分辨率提升四倍(就宽度和高度而言)。在这一因素之上,哪怕提升小图像的分辨率也变的很困难。比如,一张分辨率提升了八倍的图像,其像素数量扩大了 64 倍,因此需要另外的原始格式的 64 倍内存存储它,而这是在训练之中完成的。我们已经在文献常用的 Set5、Set14 和 BSD100 基准上测试了模型。这些文献中引用了在这些数据集上进行测试的模型的结果,使得我们可以对比我们的结果和之前作者的结果。


这些模型已在 PyTorch 做了实现(http://pytorch.org/)。


为什么选择深度学习?


提高图像分辨率的最常用技术之一是插值(interpolation)。尽管易于实现,这一方法在视觉质量方面依然有诸多不足,比如很多细节(比如尖锐的边缘)无法保留。




图 2:最常见的插值方法产生的模糊图像。自上而下依次是最近邻插值、双线性插值和双立方插值。该图像的分辨率提升了四倍。


更复杂的方法则利用给定图像的内部相似性或者使用低分辨率图像数据集及其对应的高质量图像,有效地学习二者之间的映射。在基于实例的 SR 算法中,稀疏编码方法是最为流行的方法之一。


这一方法需要找到一个词典,允许我们把低分辨率图像映射到一个中间的稀疏表征。此外,HR 词典已被学习,允许我们存储一个高分辨率图像的评估。该流程通常涉及若干个步骤,且无法全部优化。理想情况下,我们希望把这些步骤合而为一,其中所有部分皆可优化。这种效果可以通过神经网络来达到,网络架构受到稀疏编码的启发。


更多信息请参见:http://ift.tt/2iAPrTt


SRCNN


SRCNN 是超越传统方法的首个深度学习方法。它是一个卷积神经网络,包含 3 个卷积层:图像块提取与表征、非线性映射和最后的重建。


图像在馈送至网络之前需要通过双立方插值进行上采样,接着它被转化为 YCbCr 色彩空间,尽管该网络只使用亮度通道(Y)。然后,网络的输出合并已插值的 CbCr 通道,输出最终彩色图像。我们选择这一步骤是因为我们感兴趣的不是颜色变化(存储在 CbCr 通道中的信息)而只是其亮度(Y 通道);根本原因在于相较于色差,人类视觉对亮度变化更为敏感。


我们发现 SRCNN 很难训练。它对超参数的变化非常敏感,论文中展示的设置(前两层的学习率为 10-4,最后两层的学习率为 10-5,使用 SGD 优化器)导致 PyTorch 实现输出次优结果。我们观察到在不同的学习率下,输出结果有一些小的改变。最后我们发现,使性能出现大幅提升的是设置是:每层的学习率为 10-5,使用 Adam 优化器。最终网络在 1.4 万张 32×32 的子图上进行训练,图像和原始论文中的图像来自同样的数据集(91 张图像)。


图 3:左上:双立方插值,右上:SRCNN,左下:感知损失,右下:SRResNet。SRCNN、感知损失和 SRResNet 图像由对应的模型输出。


感知损失(Perceptual loss)


尽管 SRCNN 优于标准方法,但还有很多地方有待改善。如前所述,该网络不稳定,你可能会想优化 MSE 是不是最佳选择。


很明显,通过最小化 MSE 获取的图像过于平滑。(MSE 输出图像的方式类似于高分辨率图像,导致低分辨率图像,[图 1])。MSE 无法捕捉模型输出和真值图像之间的感知区别。想象一对图像,第二个复制了第一个,但是改变了几个像素。对人类来说,复制品和原版几乎无法分辨,但是即使是如此细微的改变也能使 PSNR 显著下降。


如何保存给定图像的可感知内容?神经风格迁移中也出现了类似的问题,感知损失是一个可能的解决方案。它可以优化 MSE,但不使用模型输出,你可以使用从预训练卷积神经网络中提取的高级图像特征表示(详见 http://ift.tt/2haFJaa)。这种方法的基础在于图像分类网络(如 VGG)把物体细节的信息存储在特征图中。我们想让自己提升后的图像中的物体尽可能地逼真。


除了改变损失函数,网络架构也需要重新建模。该模型比 SRCNN 深,使用残差块,在低分辨率图像上进行大部分处理(加速训练和推断)。提升也发生在网络内部。在这篇论文中(http://ift.tt/2dX2g9i),作者使用转置卷积(transposed convolution,又叫解卷积,deconvolution),3×3 卷积核,步幅为 2。该模型输出的「假」图像看起来与棋盘格滤镜效果类似。为了降低这种影响,我们还尝试了 4×4 卷积的解卷积,以及最近邻插值与 3×3 的卷积层,步幅为 1。最后,后者得到了最好的结果,但是仍然没有完全移除「假」图像。


与论文中描述的过程类似,我们的训练流程包括从 MS‑COCO 近一万张图像中抽取的一些 288×288 随机图像组成的数据集。我们将学习率设置为 10-3,使用 Adam 优化器。与上面引用的论文不同,我们跳过了后处理(直方图匹配),因为该步骤无法提供任何改进。


SRResNet


为了最大化 PSNR 性能,我们决定实现 SRResNet 网络,它在标准基准上达到了当前最佳的结果。原论文(http://ift.tt/2ctJo44)提到一种扩展方式,允许修复更高频的细节。


和上文描述的残差网络一样,SRResNet 的残差块架构基于这篇文章(http://ift.tt/1S3chkd)。存在两个小的更改:一个是 SRResNet 使用 Parametric ReLU 而不是 ReLU,ReLU 引入一个可学习参数帮助它适应性地学习部分负系数;另一个区别是 SRResNet 使用了图像上采样方法,SRResNet 使用了子像素卷积层。详见:http://ift.tt/2kM8DxR


SRResNet 生成的图像和论文中呈现的结果几乎无法区分。训练用了两天时间,训练过程中,我们使用了学习率为 10-4 的 Adam 优化器。使用的数据集包括来自 MS‑COCO 的 96×96 随机图像,与感知损失网络类似。


未来工作


还有一些适用于单图像超分辨率的有潜力的深度学习方法,但由于时间限制,我们没有一一测试。


这篇近期论文(http://ift.tt/2uu2Ip0)提到使用修改后的 SRResNet 架构获得了非常好的 PSNR 结果。作者移除残差网络中的批归一化,把残差层的数量从 16 增加到 32。然后把网络在 NVIDIA Titan Xs 上训练七天。我们通过更快的迭代和更高效的超参数调整,把 SRResNet 训练了两天就得到了结果,但是无法实现上述想法。


我们的感知损失实验证明 PSNR 可能不是一个评估超分辨率网络的合适指标。我们认为,需要在不同类型的感知损失上进行更多研究。我们查看了一些论文,但是只看到网络输出的 VGG 特征图表示和真值之间的简单 MSE。现在尚不清楚为什么 MSE(每像素损失)在这种情况中是一个好的选择。


另一个有潜力的方向是生成对抗网络。这篇论文(http://ift.tt/2ctJo44)使用 SRResNet 作为 SRGAN 架构的一部分,从而扩展了 SRResNet。该网络生成的图像包含高频细节,比如动物的皮毛。尽管这些图像看起来更加逼真,但是 PSNR 的评估数据并不是很好。




图 4:从上到下:SRResNet 实现生成的图像、SRResNet 扩展生成的图像,以及原始图像


结论


本文中,我们描述了用于单图像超分辨率的三种不同的卷积神经网络实验,下图总结了实验结果。


图 5:本文讨论模型的优缺点


使用 PSNR 在标准基准数据集上进行度量时,即使简单的三层 SRCNN 也能够打败大部分非机器学习方法。我们对感知损失的测试证明,该指标不适合评估我们的模型性能,因为:我们能够输出美观的图像,但使用 PSNR 进行评估时,竟然比双立方插值算法输出的图像差。最后,我们重新实现了 SRResNet,在基准数据集上重新输出当前最优的结果。我们构建的模型使用 Neptune 来部署,模型地址:http://ift.tt/2AkMj61


]]> 原文: http://ift.tt/2j7ApbI
RSS Feed

机器知心

IFTTT

集智 机器学习基础班(线下班)绝不包就业班

人数:8人(目前已经7人)

费用:原价8000元,11月8号前报名,享受折扣价2499元,9号前报名享受折扣价3999元。9号恢复原价。(不讲价,座位付费预定即无,不退款)报名时会简单咨询背景和编程经验。

信息扩散优惠:保存下图并发到你的朋友圈,扫码添加客服微信+发送截图给客服,可免费获得一门巨难课程《深度学习的理论基础》

性质:非就业班,救不了业,培养基础。

地址:北京市海淀区善缘街1号立方庭

日期:11月11日起的双休日,共计10天,每天6小时左右,持续五周,每周留有课堂作业。

学员编号:001-008 Basic 一期 顺利通过所有课程者,发身份铭牌+结业证书

形式:线下班。基础知识+每周作业+课后答疑+助教团队+四场AI一线公司创始人/工程师/HR主管讲座。

助教阵容:清华本科团队。

授课团队及内容:

北大博士、人大博士、中科院博士,海外双学位本硕,某AI比赛世界冠军等。(隐去姓名)



via 集智 - 知乎专栏 http://ift.tt/2zm2JuQ
RSS Feed

RSS7

IFTTT

在「古板迟缓」的芯片产业,一群「寒武纪」们诞生的意义与挑战

撰文 | 宇多田


在过去的几年里,一个名为「深度学习」的人工智能技术家族在科技行业掀起了一场风暴。


从帮你对手机相册里的自拍与萌宠进行识别分类,再到大幅度提高 Alexa 们(智能助手)与无人驾驶汽车的「平均智商」,「深度学习」这个人工智能里的门类,具备了更高级的对「复杂结构」进行自动挖掘的能力。


通俗来说,与传统计算通过固定流程解决「确定」问题不同,深度学习算法需要模拟人脑来解决那些取决于概率的「不确定问题」。


而这个解决问题过程所需的算力,却与传统芯片所擅长的不一致。


因此,各类终端,乃至整个智能硬件市场,对底层基础芯片的要求也发生了根本改变。简单来说,就是处理器性能与需求之间出现了巨大的市场缺口。


而这正是为何从英伟达、英特尔等老牌半导体巨头,再到 Cerebras Systems、Wave Computing 等明星AI 芯片初创公司,都在竞相开发供 AI 算法专用的芯片。


从某种意义上,这些芯片能够根本改变计算机的制造方式。


而在这些恰逢其时出现的idea与创业公司中,就包括最近风头正劲的全球第一家芯片独角兽——中国创业公司「寒武纪」。


「寒武纪」们的机会


当下,在很大程度上,深度学习芯片市场是由英伟达主导的。


这家芯片巨头长期以来一直以其「王牌产品」——图形处理器(GPU)而闻名业界。而 GPU 有成千上万个并行的微型计算机,每个都在「专心」地渲染像素。


通常,为了渲染图像的阴影、光线、反射以及透明度,这些小的计算「核心」需要一起执行大量低级的数学运算。


而就在几年前,研究人员又发现,GPU 的功能理论上非常适合运行深度学习算法,因为后者也需要成千上万地并行计算,正迫切需要一款适合的芯片来高效计算深度学习任务。


而这一发现,让 GPU 的出现显得恰逢其时,也让英伟达成功成为人工智能革命的「核心发起人」之一。


不过,虽然这些 GPU 在游戏和其他图像密集型应用中被广泛使用,但是从英伟达近年来的财报可以看出,数据中心的业绩虽然增幅很大,但从GPU在人工智能领域的整体情况来看,并不是非常理想。


特别是2017年第一财季,这项业务同比增长了186%,占总营收的20%。




而在智能终端芯片市场,英伟达并不是明显的赢家。


换句话说,终端市场中的各种垂直场景,包括手机、智能家居、安防、自动驾驶等领域,都存在 AI 芯片创业公司切入的大量机会。



(请注意,游戏领域并不算是GPU在人工智能领域的应用)


而另一个让创业公司「有利可图」的理由,在于通用芯片与专业芯片的差异性。同花顺财经对这个「差异性」有一个非常形象的比喻:


GPU 是一种通用型芯片,就像是你买了一个格局都固定了的房子,然后改变内部的软件设施来让这个房子达到我们需要的功能,优点是对于用户代价小,但肯定没法达到性能最大化。换句话说,就是计算力有限,性能不够。


而专业性的 ASIC 芯片,譬如嵌入华为麒麟 970 芯片的寒武纪 1A 处理器,就像是完全一块砖一块砖按自己需求重新搭建一个房子,这种肯定在性能上最贴近我们的需求,但是一次性投入太大,如果不是某一确定需求,或者能够有足够大的市场规模,肯定要冒风险。




从目前来看,虽然 GPU 的性能已经大大高于传统的 CPU,但是对于功耗较小的终端设备(譬如手机)来说,GPU 的计算力可能仍然不能满足一些需要高效运算的 AI 应用。


因此,一种目前许多终端公司与研究机构在采用的解决方法是,通过硬件加速,采用专用协处理器的异构计算方式来提升处理性能。通俗点来说,就是通用与定制化芯片可以「共存」在一个终端里。


以华为 Mate10 为例,其麒麟 970 芯片的 HiAI 移动计算架构就是由 CPU、GPU、ISP/DSP 和 NPU(寒武纪 1A 处理器)四部分组成。


Mate10 上的一款微软翻译 app,就是基于 NPU 的强大运算性能,将翻译速度提升了 300%,还能实现离线可用的全神经网络机器翻译。


因此,对于芯片创业公司来说,做的「更专」,针对特殊场景和需求进行更多特别的设计,反而是在这个市场进行「弯道超车」的好选择。




目前,从全球来看,大多数芯片创业公司,都是选择了先设计并制造「定制化芯片」的方式来切入市场。


譬如由一群具有传奇色彩的美国芯片业老兵 Andrew Feldman 等人在 2016 年成立的深度学习芯片制造商 Cerebras,就是这样一家公司。


虽然其研发及主体业务一直处于秘密状态,但据消息人士透露,他们的芯片就是为「训练某些 AI 算法模型」而量身定制的。


像 Cerebras 这样的芯片创业公司们相信,自己完全有能力在深度学习应用程序中构建一些优于 GPU 的芯片。作为 Cerebras 的 CEO,Feldman 曾在一次采访中指出,GPU 只是用来生成图形的:


「我不认为 GPU 适用于深度学习,」费尔德曼表示,「它可能比英特尔的 (CPU) 要好,但 GPU 只是代表了一种 25 年来传统芯片针对不同问题的优化结果。」


而许多其他正在崛起的 AI 芯片公司基本都在遵循着 Feldman 的逻辑:他们设计的下一代芯片有着「多核心」的特色,而每个核心都是针对低精度运算。


譬如总部位于加州坎贝尔市的创业公司 Wave Computing,就在最近披露了自己芯片架构的细节——他们在一个被称为「WDPU」的芯片上有 16000 个核心。


而另一家总部位于英国布里斯托的芯片创业公司 Graphcore 则表示,其名叫的 IPU 的芯片上载有 1000 多个核心。




再转向国内,作为全球唯一一家芯片独角兽,诞生于中国科学院计算技术研究所,成立于 2016 年的寒武纪,早在去年就推出了一款名为「1A处理器」的商用深度学习专用处理器(NPU)(神经网络处理器)。


而最值得注意的是,这块具备了传统四核CPU25倍以上性能的专用芯片,主要针对计算机视觉、语音识别等方面的任务。

另外,在今天举行的寒武纪发布会上,CEO 陈天石宣布在 2017 年 3 季度上市的寒武纪 1H8 处理器,主要面向场景视觉的应用;而上市时间「保密」的寒武纪 1M 处理器,则主要面向智能驾驶领域。


总体来说,寒武纪现有以及即将上市的芯片旗舰产品,都只针对一些特定的垂直场景,且运行智能算法时的性能与计算效率,都要大幅超越 CPU 与 GPU。




芯片创业公司的骄傲与挑战


毫无疑问,这个产业的投入非常庞大,而且资金必须可持续。就像 ARM 中国战略发展总监袁伟的表述一样:「芯片研发与制造的投入必须要达到 10 亿美金的级别,基本上只有巨头能担负得起」。


但很显然,资本似乎对这种「费钱」的现实「无动于衷」。


因为从某种程度上,英伟达如今疯狂飙升至 1000 亿美元的市值对投资者们产生了极大的冲击,没有人不对 AI 芯片在商业领域展现出的想象空间垂涎欲滴。


这种意识让投资者在面对 AI 芯片创业者时并没有捂紧钱包,当下,资本正在源源不断地流入这个「又见生机」的古老产业。


以刚刚提到的神秘芯片创业公司 Cerebras 为例,根据资本数据库 PitchBook 提供的融资文件显示,在其结束的三轮融资中,Cerebras 已经筹集了 1.12 亿美元,其估值也在今年8月飙升至高达 8.6 亿美元。


而 Wave Computing 与 Graphcore 迄今为止也分别筹集了 6000 万美元。投资者们包括 DeepMind CEO Demis Hassabis,Uber 首席科学家 Zoubin Ghahramani 以及一些来自 OpenAI 的管理层。


「我们刚刚宣布成立 AI 芯片公司,就被那些对我们产品感兴趣的人的电话打爆了,」Graphcore 的首席执行官兼联合创始人奈杰尔·图恩 (Nigel Toon) 的这番说法既无奈又骄傲,「我们甚至可以和任何 AI 领域的关键人物进行沟通和谈判。」


而刚刚发布了新产品的寒武纪,也是在今年 8 月份获得 1 亿美元 A 轮融资金额,晋升为全球首个芯片独角兽后,开始受到国内的广泛关注。值得注意的是,阿里巴巴、联想等计算巨头都是其重要投资方。



寒武纪CEO陈天石


更大的投入与回报,更令人兴奋的市场,自然也涌动着更大的危险与挑战。


福布斯杂志就曾对这个不断砸钱的市场发出疑问:适合这些芯片的硬件真的成熟了吗?


以无人驾驶汽车为例,大部分零部件仍处于开发阶段与早期试点阶段。


还有就是,即便你花费数年时间研发出一款芯片,但是否能够适应算法及硬件变迁的节奏呢?


特别是对于定制化的 ASIC 芯片来说,算法是固定的,一旦算法变化就可能无法使用。目前人工智能还属于大爆发时期,大量算法不断涌出,远没到算法平稳期,ASIC 专用芯片如何做到适应各种算法是个最大的问题。


因此,像寒武纪这样的公司,虽然以一款深度学习专用芯片为切入点,但公司显然已经在朝着制造更通用芯片的道路迈进了。


譬如,今天寒武纪也在最后顺延推出了一款面向云端的机器学习处理器 MLU,而陈天石也在接受采访时否认了寒武纪是一家制造 ASIC 芯片的公司:


「我们不只有神经网络处理器 ,还会在未来发布适用于更多任务的处理器产品。」



可以看到,MLU涉及了数据中心业务


此外,虽然英伟达让人们看到了 AI 芯片的巨大商机,但我们从目前来看根本不清楚芯片创业公司的商业机遇究竟有多大。

尽管有英伟达在先,但通过芯片产品进入以计算为基础的数据中心市场仍然是一个不容忽视的大目标,因为这是一个随着云计算产业爆发而变得十分有利可图的市场。


但这一市场基本被亚马逊、谷歌、微软、苹果、Facebook 等美国计算巨头所主导。而谷歌也因为 GPU 的功耗问题,开发了属于自己的 AI 芯片 TPU;微软也似乎正在专注使用一种叫做 FPGA 的可编程芯片。




而另一个明显的挑战,在于芯片创业公司独立成长壮大的「高难度」。


在过去几年中,半导体行业经历了大规模的并购整合浪潮,所有芯片巨头对待新事物都十分警惕——在积极寻找下一个可以赚钱的「Big Thing」同时,也在把「一切威胁地位的苗头」无形扼杀于摇篮里。


可以看出,他们大多数的收购目标都瞄准了专注于人工智能计算与自动驾驶等场景的专业级公司。特别是芯片巨头英特尔,其并购套路一直是极具「侵略性」的:

  • 耗资 187 亿美元收购 FPGA(可编程芯片)制造商 Altera;
  • 花 150 亿美元买下自动驾驶系统制造商 Mobileye;
  • 花 3.5 亿美元收购深度学习技术公司 Nervana。

而英特尔的竞争对手高通,正试图以 380 亿美元的价格,与在汽车市场具有绝对话语权的芯片制造商 NXP 进行合并。


高通创投的 CEO Quinn Li 曾透露,公司其实已经研究了像 Cerebras 这样的 AI 芯片公司很长时间,但是因为一些不确定因素还没有进行下一步动作。


「尤其是在供数据中心使用的芯片市场,我们还尚未进行任何投资。每个人都很明白,

在数据中心领域的潜在客户数量有限,而进入一个由英伟达把控的市场会非常困难。而在终端设备领域,由于硬件还不是很成熟,市场规模还远远没有达到想象的样子。」


他坦白,高通也正在试图弄清楚市场机会是什么。「最赚钱的仍然是数据中心领域,或许亚马逊和其他没研发 AI 芯片的大公司会对更新,价格更低性能更好的产品感兴趣。」




(以上为寒武纪的商业目标)


从寒武纪的产品角度来看,与国外同类创业公司相比,这家中国芯片创业公司已经率先进入了商业化流程——其 IP 指令集,已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中,截止 2016 年已拿到 1 亿元订单。


不过,寒武纪另一个突出优势在于有着「国家战略」的支持,其「中国芯」的宣传口号与国家科技部门对公司进行的专题调研以及学院背景就可见一斑。

但无论如何,你不能否认的是,在这个古老且传统的半导体产业中,AI 在芯片上的突破与寒武纪们的出现,是彻底改变传统市场「赛制」,进行市场洗牌,与加速 AI 产业化的重要机会。


]]> 原文: http://ift.tt/2h7KuRG
RSS Feed

机器知心

IFTTT

为静态照片添加动画表情的iOS应用MugLife来了,网友惊呼「这技术等着被收购吧」

撰文 | 王艺


机器之能最近发现了一个很好玩的图片处理 APP,叫 Mug Life,简单几步就能让人物照片动起来,我们先来看看效果。


Mug 前:



Mug 后:



为了能让脸部动起来,Mug Life 提供了一些表情的模版,且几乎每天都有新表情上线。如果你想要自己创作,Mug Life 还支持用户自己设计面部锚点的移动路径。


你可以把它理解成低配版的「反向 iPhone X Animoji」。之所以反向,是因为 Animoji 是将人类的表情按在动画上,而 Mug Life 是将模版的表情套在人物上。


为什么是低配?因为所有的 iOS 用户都能使用,并不需要 3D 摄像头。不过或许是因为 Animoji 的处理对象是一些特定的卡通人物,与 Mug Life 需要处理的五花八门的人物照片相比,难度较低。因此,与 iPhone X 的效果相比,Mug Life 确实稍逊一筹。


Animoji:


Mug 前:



Mug 后:



有的时候 Mug Life 还是会识别无能,比如人物戴帽子的时候。


Mug 前:(小汤圆友情出镜)


Mug 后:


对于眼镜的处理也还需要加强


Mug 后:


不过目前图像处理软件大多是像 Faceu 一样,在视频或者照片上直接加特效,像 Mug Life 这种将照片变成视频的 APP 的确是一股清流。


有了 Mug Life,恶搞亲朋好友名人明星不在话下(当然要懂得遵纪守法)。而且 Mug Life 不仅能 Mug 人脸,还能 Mug 小猫小狗的脸,Mug 起哈士奇来也是魔性。


Mug 前:(图片源自知乎,版权所有:独角白七)


Mug 后:


与此同时,Mug Life 还是一个社区,用户向社区上传他们的 Mug 作品,也可以免费下载社区内其他用户上传的内容。如果你上传的内容不想被他人下载的话,可以设置为私有模式。


Mug Life 成立于 2015 年,创始人 Rob Cohen 和 Thomas Coles 曾是 20 年的老同事,二人均在视频游戏产品界占有很高的地位。


在创立 Mug Life 之前,Cohen 曾在 1998 年创立 PC 游戏「现实边缘」,并任 CEO 和 CTO。Coles 则热爱建筑与艺术,是 Mug Life 的艺术家和创意总监。


想必大家也看出来了,Mug Life 背后的技术正是现在大热的神经网络。其技术实现分为三个阶段——面部解构(Deconstruction)、加特效(Animation)、以及面部重构(Reconstruction)。


据官网介绍,在解构阶段,Mug Life 将照片分解,提取 3D 建模所需的要素,例如相机属性、光照条件、面部几何数据以及纹理等。接着,在不改变面部关键特性的前提下,使用电影动画技术为面部赋予表情。最后,将照片重新渲染成动画三维人物,这一过程所用到的技术正是二位创始人的老本行——视频游戏中的核心技术之一。


除了趣味性,Mug Life 的惊人之处还在于将电影特效、游戏视频行业的技术搬至移动端,而这些技术往往是需要在工作站或者大型服务器上完成的。


因此,在创业项目搜罗网站(也是新应用风向标)Product Hunt 上,有网友评论道:「估计这家公司马上就要被收购了。」

另有网友调侃道:「这个 APP 一切都很好,就是 UI 设计太差。」并表示如果需要人手的话自己愿意加入。不知道 Coles 看到这则评论会怎么想。


]]> 原文: http://ift.tt/2j63h4b
RSS Feed

机器知心

IFTTT

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」-InfoQ每周精要No.900

「每周精要」 NO. 900 2025/11/01 头条 HEADLINE M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」 精选 SELECTED a16z 将 3000 万开发者标价 3 万亿 网友:几个初创公司 + 大模型就...