2017年11月1日星期三

终于!TensorFlow引入了动态图机制Eager Execution


PyTorch 的动态图一直是 TensorFlow 用户求之不得的功能,谷歌也一直试图在 TensorFlow 中实现类似的功能。最近,Google Brain 团队发布了 Eager Execution,一个由运行定义的新接口,让 TensorFlow 开发变得简单许多。在工具推出后,谷歌开发人员 Yaroslav Bulatov 对它的性能与 PyTorch 做了横向对比。


今天,我们为 TensorFlow 引入了「Eager Execution」,它是一个命令式、由运行定义的接口,一旦从 Python 被调用,其操作立即被执行。这使得入门 TensorFlow 变的更简单,也使研发更直观。


Eager Execution 的优点如下:


  • 快速调试即刻的运行错误并通过 Python 工具进行整合
  • 借助易于使用的 Python 控制流支持动态模型
  • 为自定义和高阶梯度提供强大支持
  • 适用于几乎所有可用的 TensorFlow 运算


Eager Execution 现在处于试用阶段,因此我们希望得到来自社区的反馈,指导我们的方向。


为了更好地理解 Eager Execution,下面让我们看一些代码。它很技术,熟悉 TensorFlow 会有所帮助。


使用 Eager Execution


当你启动 Eager Execution 时,运算会即刻执行,无需 Session.run() 就可以把它们的值返回到 Python。比如,要想使两个矩阵相乘,我们这样写代码:


import tensorflow as tf import tensorflow.contrib.eager as tfe tfe.enable_eager_execution() x = [[2.]] m = tf.matmul(x, x)


使用 print 或者 Python 调试器检查中间结果非常直接。


print(m) # The 1x1 matrix [[4.]]


动态模型的构建可使用 Python 控制流。下面是使用 TensorFlow 算术操作的考拉兹猜想(Collatz conjecture)的一个示例:


a = tf.constant(12) counter = 0 while not tf.equal(a, 1):  if tf.equal(a % 2, 0):    a = a / 2  else:    a = 3 * a + 1  print(a)


这里,tf.constant(12) 张量对象的使用将把所有数学运算提升为张量运算,从而所有的返回值将是张量。


梯度


多数 TensorFlow 用户对自动微分(automatic differentiation)很感兴趣。因为每次调用都有可能出现不同的运算,可以理解为我们把所有的正向运算录到「磁带」上,然后在计算梯度时进行「倒放」。梯度计算完成后,「磁带」就没用了。

如果你熟悉 autograd 包,我们提供的 API 与之非常类似。例如:


def square(x):  return tf.multiply(x, x) grad = tfe.gradients_function(square) print(square(3.))    # [9.] print(grad(3.))      # [6.]


gradients_function 的调用使用一个 Python 函数 square() 作为参数,然后返回 Python callable,用于计算输入的 square() 偏导数。因此,为了得到输入为 3.0 时的 square() 导数,激活 grad(3.0),也就是 6。

同样的 gradient_function 调用可用于计算 square() 的二阶导数。


gradgrad = tfe.gradients_function(lambda x: grad(x)[0]) print(gradgrad(3.))  # [2.]


如前所述,控制流(control flow)会引起不同的运算,下面是一个示例:


def abs(x):  return x if x > 0. else -x grad = tfe.gradients_function(abs) print(grad(2.0))  # [1.] print(grad(-2.0)) # [-1.]


自定义梯度


用户或许想为运算或函数自定义梯度。这可能有用,原因之一是它为一系列运算提供了更高效、数值更稳定的梯度。

下面的示例使用了自定义梯度。我们先来看函数 log(1 + e^x),它通常用于计算交叉熵和 log 似然。


def log1pexp(x):  return tf.log(1 + tf.exp(x)) grad_log1pexp = tfe.gradients_function(log1pexp) # The gradient computation works fine at x = 0. print(grad_log1pexp(0.)) # [0.5] # However it returns a `nan` at x = 100 due to numerical instability. print(grad_log1pexp(100.)) # [nan]


我们可以将自定义梯度应用于上述函数,简化梯度表达式。注意下面的梯度函数实现重用了前向传导中计算的 (tf.exp(x)),避免冗余计算,从而提高梯度计算的效率。


@tfe.custom_gradient def log1pexp(x):  e = tf.exp(x)  def grad(dy):    return dy * (1 - 1 / (1 + e))  return tf.log(1 + e), grad grad_log1pexp = tfe.gradients_function(log1pexp) # Gradient at x = 0 works as before. print(grad_log1pexp(0.)) # [0.5] # And now gradient computation at x=100 works as well. print(grad_log1pexp(100.)) # [1.0]


建立模型


模型可以分成几类。此处我们要提的模型可以通过创建一个简单的两层网络对标准的 MNIST 手写数字进行分类。


class MNISTModel(tfe.Network):  def __init__(self):    super(MNISTModel, self).__init__()    self.layer1 = self.track_layer(tf.layers.Dense(units=10))    self.layer2 = self.track_layer(tf.layers.Dense(units=10))  def call(self, input):    """Actually runs the model."""    result = self.layer1(input)    result = self.layer2(result)    return result


我们推荐使用 tf.layers 中的类别(而非函数),这是因为它们创建并包含了模型参数(变量,variables)。变量的有效期和层对象的有效期紧密相关,因此需要对它们进行追踪。

为什么要使用 tfe.Network?一个网络包含了多个层,是 tf.layer.Layer 本身,允许将 Network 的对象嵌入到其它 Network 的对象中。它还包含能够协助检查、保存和修复的工具。

即使没有训练模型,我们也可以命令式地调用它并检查输出:


# Let's make up a blank input image model = MNISTModel() batch = tf.zeros([1, 1, 784]) print(batch.shape) # (1, 1, 784) result = model(batch) print(result) # tf.Tensor([[[ 0.  0., ...., 0.]]], shape=(1, 1, 10), dtype=float32)


注意我们在这里不需要任何的占位符或会话(session)。一旦数据被输入,层的参数就被设定好了。


训练任何模型都需要定义一个损失函数,计算梯度,并使用一个优化器更新参数。首先定义一个损失函数:


 def loss_function(model, x, y):  y_ = model(x)  return tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=y_)


然后是训练的循环过程:


optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.001) for (x, y) in tfe.Iterator(dataset):  grads = tfe.implicit_gradients(loss_function)(model, x, y)  optimizer.apply_gradients(grads)


implicit_gradients() 计算损失函数关于计算使用的所有 TensorFlow 变量的导数。


我们可以按往常使用 TensorFlow 的方式将计算转移到 GPU 上:


with tf.device("/gpu:0"):  for (x, y) in tfe.Iterator(dataset):    optimizer.minimize(lambda: loss_function(model, x, y))

(注意:我们简化然后保存损失损失函数并直接调用 optimizer.minimize,但你也可以使用上面的 apply_gradients() 方法,它们是等价的。)


使用 Eager 和 Graphs


Eager execution 使开发和调试互动性更强,但是 TensorFlow graph 在分布式训练、性能优化和生产部署中也有很多优势。


启用 eager execution 时,执行运算的代码还可以构建一个描述 eager execution 未启用时的计算图。为了将模型转换成图,只需要在 eager execution 未启用的 Python session 中运行同样的代码。示例:http://ift.tt/2zX45eK eager(命令式)和 graph(声明式)编程之间轻松转换。这样,启用 eager execution 开发出的模型可以轻松导出到生产部署中。


在不久的将来,我们将提供工具,可以选择性地将模型的某些部分转换成 graph。用这种方式,你就可以融合部分计算(如自定义 RNN 细胞的内部)实现高性能,同时还能保持 eager execution 的灵活性和可读性。


如何改写我的代码?


Eager execution 的使用方法对现有 TensorFlow 用户来说应是直观的。目前只有少量针对 eager 的 API;大多数现有的 API 和运算需要和启用的 eager 一起工作。请记住以下内容:


一般对于 TensorFlow,我们建议如果你还没有从排队切换到使用 tf.data 进行输入处理,请抓紧做。它更容易使用,也更快。查看这篇博文(http://ift.tt/2htRc51


使用目标导向的层(比如 tf.layer.Conv2D() 或者 Keras 层),它们可以直接存储变量。你可以为大多数模型写代码,这对 eager execution 和图构建同样有效。也有一些例外,比如动态模型使用 Python 控制流改变基于输入的计算。一旦调用 tfe.enable_eager_execution(),它不可被关掉。为了获得图行为,需要建立一个新的 Python session。


开始使用


这只是预发布,还不完善。如果你想现在就开始使用,那么:


  • 安装 TensorFlow 的 nightly 版本(http://ift.tt/2zX3Lg4
  • 查看 README(包括 known issues),地址:http://ift.tt/2z1h6qH
  • 从 eager execution 用户指南(http://ift.tt/2huNd8z
  • 在 GitHub 中查看 eager 示例(http://ift.tt/2zVASRs
  • 及时查看变更日志(http://ift.tt/2hue4l0


性能测试


Eager Execution 目前仅处于开发的前期,它的性能究竟如何?Google Brain 的工程师 Yaroslav Bulatov 对这一新工具做出了评测。TensorFlow 此前最令人诟病的问题就是它必须将计算定义为静态图。


我们在谷歌大脑的工作之一就是解决这类需求,并最终以命令式版本开源。但是这依赖于私有/不稳定的 API,而且这些 API 的维护成本会越来越高昂。幸运的是,PyTorch 满足了研究员的需求,并且如今的 TensorFlow 也官方支持执行模式而不需要定义图。


目前,Eager Execution 仍在积极开发中,但在最近发布的可用版本非常有用,我们可以试用一下:


pip install tf-nightly-gpu python from tensorflow.contrib.eager.python import tfe tfe.enable_eager_execution() a = tf.random_uniform((10,)) b = tf.random_uniform((10,)) for i in range(100):  a = a*a  if a[0]>b[0]:  break print(i)


请注意,此操作并不需要处理图,Session 就可以立即执行。若想应用 GPU 加速,请先将 tensor 拷贝至指定设备。


a = a.gpu() # copies tensor to default GPU (GPU0) a = a.gpu(0) # copies tensor to GPU0 a = a.gpu(1) # copies tensor to GPU1 a = a.cpu() # copies tensor back to CPU


端口命令代码


你可以将一个已有的 numpy/pytorch/matlab 的命令式代码重写成正确的 API 调用。例如,


torch.sum -> tf.reduce_sum」 array.T -> tf.transpose(array) 等


我已使用 PyTorch 实现的 l-BFGS 作为练习,第一次在 GPU 上并行跑两个实验时(PyTorch & Eager),我得到前 8 位小数相同的结果。这使我大吃一惊,前所未闻。



使用已有的基于图的代码


如果你的代码不依赖于特定的 API,例如 graph_editor,你可以使用现有的代码并在 eager execution 模式下运行。


还有一个实验性的函数「graph_callable」,可以将任意 tensorflow 子图作为一个可以调用的函数。它仍然处于开发阶段,但我能得到一个有效的例子来说明,该例子将 tensorflow /models 中的 resnet_model 包装成一个 graph_callable。下面是一个随机批大小训练这个模型的例子。

一旦该功能上线,它应该有助于提高程序性能,具体可参考下文的性能部分。


拓展了梯度


原始 tf.gradients_function 的新衍生版本反映了autograd 的梯度。你可以调用在一个已有函数内调用「gradients_function」N 次获得 N 阶导数,即


# expensive way to compute factorial of n def factorial(n):  def f(x):    return tf.pow(x, n)  for i in range(n):    f = tfe.gradients_function(f)  return f(1.)


还有一个原始「custom_gradient」函数,这使得创建自定义梯度更容易。例如,假设我们想要平方函数,但在后向传播时增加了噪声。


@tfe.custom_gradient def noisy_square(x):   def grad(b):       true_grad = 2*b*x       return true_grad+tf.random_uniform(())    return (x*x), grad grad = tfe.gradients_function(noisy_square) x = 2. points = [] for i in range(20):   x -= .9*grad(x)[0]   print(x, loss(x))


效果如下:



你会看到版本二收敛更慢,但是一旦收敛,它的泛化能力更好。


这种梯度修正对于实现如 KFAC 的高级优化算法时十分有用。想想我早期所讲,KFAC 在简单网络中相当于激活函数和反向传播值白化的梯度下降。


这就可以理解为梯度在其两边乘上了白化的矩阵


假设你已经将这些矩阵保存为 m1,m2,那么你自定义的乘操作可以是这样的:


@tfe.custom_gradient def kfac_matmul(W, A):   def grad(B):       true_grad1 = B @ tf.transpose(A)       true_grad2 = tf.transpose(W) @ B    return [m1 @ true_grad1 @ m2, true_grad2] return W @ A, grad


注意,true_grad1, true_grad2 函数是乘法操作的反向传播实现,请参考 Mike Giles 的第 4 页「An extended collection of matrix derivative results for forward and reverse mode algorithmic differentiation」(http://ift.tt/2huYbL7)

你可以通过使用 kfac_matmul 替代采用梯度下降算法恢复原来的 kfac,或者你可以尝试新的变种方法,利用动量和 Adam。


这里(http://ift.tt/2zX3MAE Eager execution 模式下的 KFAC 样例。


性能


Eager Execution 模式使你的程序执行慢一点或慢很多的程度取决于你的计算高运算强度的卷积还是矩阵相乘。


做纯矩阵乘法(超过 1 毫秒的时间)是没有太大的差别,无论你用 tensorflow 快速模式,pytorch 或 tensorflow 经典模式。



另一方面,端到端的例子更易受影响。


在测试中,当运行环境设置为 O(n^(1.5)) 操作,如 matmul/conv 时,Eager Execution 的速度要比 PyTorch 慢 20%,或者在大量 O(n) 操作如矢量添加的例子中,比 PyTorch 慢 2-5 倍。


作为一个简单的例子,我们使用吴恩达提出的 UFLDL 来训练 MNIST 自编码器。在批尺寸=60k,I-BFGS 的 history=5 时,大量的计算效能都被花在了自编码器正向传播上,Eager 的版本要比 PyTorch 慢 1.4 倍。


在批尺寸为 60k,I-BFGS 的 history=100 的设置下,两个回环在每一步 I-BFGS(点积和向量增加)中执行「两步递归」,Eager 版本的模型速度降低了 2.5 倍,而 PyTorch 仅受轻微影响。


最后,如果我们将批尺寸减少到 10k,我们可以看到每次迭代的速度都要慢 5 倍,偶尔甚至会慢 10 倍,这可能是因为垃圾回收策略造成的。


结论


虽然目前 Eager Execution 的表现还不够强大,但这种执行模式可以让原型设计变得容易很多。对于在 TensorFlow 中构建新计算任务的开发者而言,这种方式必将很快成为主流。


原文地址:

http://ift.tt/2yj8gFu

http://ift.tt/2ihiECC



]]> 原文: http://ift.tt/2huDsXE
RSS Feed

机器知心

IFTTT

​自动驾驶「黑手党」十年启示录

作者 | Dana Hull

编译 | Rik R

来源 | bloomberg


一个五角大楼资助的竞赛催生出了许多自动驾驶领域的初创公司。十年后,竞争者们还在努力完善这项技术。


自动驾驶汽车发端于匹兹堡。美国国防部高级研究计划局(DARPA,美军的一个研发署)组织了一系列传奇性的机器人车比赛,赛后这些由学生和教授建造的汽车身负伤疤和凹痕,现在它们正在卡内基梅隆大学校园里「站岗」,可以看出其中一个的损伤是侧翻所致。而参与这些竞赛的许多工程师都在赛后相继推出了自动驾驶汽车初创公司,现在这些公司正引领着运输业的未来。


Aurora Innovation 公司的几名员工(可由他们身上的 Aurora T 恤识别出)在最近的一个星期六上午来到这里,致敬其自动驾驶领域的前辈们。「这就像看着上世纪 80 年代产的手机,」Clint Liddick 说。他是该公司在匹兹堡办事处的一名软件工程师,现年 27 岁。「如今在自己的工作之外,我每天都能看到自动驾驶汽车。我三岁的儿子立刻就能认出它们。」


Aurora 的负责人是机器人专家 Chris Urmson,他曾是领导卡耐基梅隆团队的助教,该团队是「Boss(雪佛兰·塔荷(Chevy Tahoe)自动驾驶汽车)」的幕后功臣,该车在 2007 年 11 月赢得了 DARPA 的城市挑战赛,时间刚好是 10 年前的这一周。Chris Urmson 已经在十月的一个周末回到了校园,借着周年庆典的机会与 Boss 团队的老兵们叙叙旧。这一强制性事件的纪念品——灰色 polo 衫、黑色棒球帽、不锈钢杯——是那个红色轮廓的 Boss 及其笨重的传感器。


「很明显,硬件太重了。」Urmson 指着 Boss 上看起来很像咖啡机的一台笨重的激光器说道,「但是其所运用到的大部分技术都是今天还在使用的。」


Aurora 的网站上承诺着「安全,高效流动性」,它是十年前五角大楼所资助的那些竞赛遗产所催生出的新兴公司的一部分。几乎与 PayPal 黑帮的早期成员一样,来自 DARPA 竞赛的紧密结合的移民社群通过创业或投资延续了硅谷的传奇。大部分自动驾驶汽车后辈们都有一个隐约透露出未来感的单个词名称——Argo、Nuro、Waymo、Zoox——以及一份狂热的理想主义,关于预防交通事故和改变人们生活与运动方式。Urmson 和他那时的竞赛同辈们代表着自动驾驶汽车领域在十年间的进展,以及还剩下多少工作。


联邦政府在自动驾驶汽车研究初期就注入了资金,政府的这种慷慨行为也发生在了互联网、GPS 技术和可替代能源研究的早期阶段。DARPA 自苏联的人造卫星(Sputnik)时代起便在追求着同一个使命:在突破性技术领域进行关键投资以推动国家安全。


自动驾驶汽车的挑战是要把几十年来在实验室中发展起来的技术引入现实世界。当时存在军事紧迫感。美国在阿富汗和伊拉克发动了战争,数十名士兵被路边的炸弹炸死。无人驾驶汽车可以挽救前线军人的生命。


最初的竞赛,即 2004 年度 Darpa 大挑战赛(Darpa Grand Challenge of 2004),要求机器人汽车穿越莫哈韦沙漠,旅程约 140 英里。卡耐基·梅隆大学的一名悍将,唤名「Sandstorm」,以七英里的优势摘得桂冠。在 2005 年的一个后续活动中,斯坦福大学夺得第一,卡耐基梅隆大学排名第二和三位。每个大学团队都有几十名学生和教授以及一些企业赞助者。


这两个早期的比赛证明了自动驾驶汽车的可行性。但这种作业是静态的,汽车不必在动态的交通条件下导航或进行相互交流。在最后的较量中,即 DARPA 城市挑战赛(Darpa Urban Challenge),参赛者将被带到加利福尼亚州维克托维尔地区一个废弃的空军基地。这次会有一个模拟城市,有动态方面的考验。


「我们会有假人在汽车前面行走,传感器必须表明其能够认出它是人类然后停车。」Anthony Tether 说,他从 2001 年起便开始筹措 Darpa 赛事,并于 2009 年退休。89 支参赛队伍中只有 11 支进入到了决赛。


超过 2000 人参加了于 2007 年 11 月 3 日举办的最后一次活动。数百名 DARPA 的工作人员在一个指挥中心管理着赛事,由大学生和教师组成的庞大团队则兴奋不已,汽车工业界的赞助者和观察员们在一旁热切观望。谷歌的联合创始人拉里·佩奇乘坐公司的喷气式飞机抵达现场。一个超大屏幕将连续六小时进行转播。


Tether 现在拿城市挑战赛和伍德斯托克之间的相似性开玩笑:这两个事件都有很多人声称自己曾参加过,并都引发了各种传奇故事。


Boss 几乎没能走出起跑门——在一次小组成员团聚午餐的席间讨论中,Tether 讲述了这个故事。原来,超大屏幕干扰了 GPS 信号,使本已抓狂的卡耐基·梅隆大学团队陷入了混乱。Tether 最终关掉了屏幕电源,Boss 随即又恢复了活力。


该团队无法鸟瞰整个比赛过程,他们上午的大部分时间都在担心他们的机器人车是否能幸存下来。「他们不想让任何人作弊。你什么也看不到。六个小时里,你根本不会知道发生了什么。我一直都感到很恶心。就像是在恳求着请快回来吧。」卡耐基·梅隆大学团队的软件负责人 Bryan Salesky 说,后来他加入了谷歌,与人共同创立了 Argo AI 公司,福特已承诺对其投资 10 亿美元。


该旧空军基地呈现出一片繁忙的景象。除 11 个自动驾驶参赛者外,大约还有 30 辆人类驾驶的汽车在模拟交通路况。到了中午时分,大约一半大小的场地被取消了资格。


「发生了交通堵塞,卡耐基·梅隆的汽车独自完成了一次三点转向。「天哪,真是太棒了。」Tether 说,「Boss 比大多数人类都能更好地解决严重的交通堵塞问题」,甚至 DARPA 的主管也很难相信车内没有人。


在 DARPA 的工作人员花了数小时钻研了大量的技术数据之后,获奖者于次日上午公布。弗吉尼亚理工大学排名第三,斯坦福大学排名第二,卡耐基·梅隆大学赢得了最终的胜利,获得了 200 万美元和一只巨大的铜鹰。


「前两次大挑战赛是我们小小的胜利。」Tether 说,他指的是莱特兄弟进行飞行试验的北卡罗莱纳州。「但城市挑战就像 Charles Lindbergh 飞往巴黎。当他这样做的时候,航天飞行就成为了一件真实的事情,而人们会说,『我们可以通过这个来做生意。』一旦我们证明此事可行,谷歌的投资人就会找上门来。」


然而在这之前,随之而来的房地产泡沫的破灭、2008 年的经济衰退以及美国汽车工业的几近崩溃,这令其赖以生存的研究经费被削减。卡耐基·梅隆大学的主要企业赞助商通用汽车公司于 2009 年申请了破产保护。但谷歌拥有着大量的可用资源,而佩吉曾在斯坦福大学学习计算机科学专业,他结识了斯坦福团队的领导人之一 Sebastian Thrun。


「2009 年时,拉里非常想在谷歌内部找到新的创新驱动力,其第一个项目便是自动驾驶汽车,」Thrun 说到。佩吉让他打造一个梦之队,而 Thrun 雇佣的第一波员工都是 DARPA 城市挑战赛的校友们:Mike Montemerlo、Chris Urmson、Anthony Levandowski、Dirk Haehnel 和 Dmitri Dolgov。


并非汽车制造商们没有看到其中的潜力,只是底特律的时间认知不够大胆。「当时汽车行业的 CEO 们认为这种技术或许要等到 2030~2040 年才会发展起来,」在 DARPA 竞赛时任职通用汽车公司研发与规划部副总裁的 Larry Burns 说道。他现在为 Waymo 做咨询,该公司是去年从谷歌分拆出来的一家自动驾驶汽车公司。「通过不断增加投入,」他谈到谷歌的联合创始人时说,「他们至少将这个行业往前推进了十年。」


据最新数据统计,Waymo 中至少有八名员工曾参与过 DARPA 挑战赛,包括 Mike Montemerlo 和 Dolgov,后者是该公司的工程副总裁。多亏了谷歌的股票期权,其他的 DARPA 校友们都获得了惊人的财富,并创办了自己的公司。


「这间商店已经走出了很多个百万富翁,」卡耐基-梅隆大学机器人学常任教授 William「Red」Whittaker 说,「在他们还是学生时,买早餐从来不会超过 10 分美金(two nickels)。」


随着行业的成熟,竞争已经渗入了 DARPA 原先的圈子。Waymo 在今年早些时候起诉 Uber,声称这家叫车服务巨头偷走了有关自动驾驶技术的商业机密。虽然没有被列为被告,但诉讼的中心人物是 Anthony Levandowski,他是 10 年前斯坦福团队的一位成员。和许多其他人一样,他在早期加入了谷歌的自动驾驶汽车项目,然后离开并创办了自动驾驶货车初创公司 Ottomotto LLC,并很快接受了 Uber 抛来的橄榄枝。Levandowski 有望援引第五修正案所赋予他的权力来避免出庭作证;他的律师没有回复记者的置评请求。该审判定于今年 12 月 4 日进行。


人才竞争也异常激烈,竞争对手们纷纷抢夺雇员、资金和合作伙伴。仅加州就有超过 40 家公司(包括苹果、宝马和三星)已获得汽车部颁发的自动驾驶车辆测试许可证。但最终,每个人的目标是一致的。


「我们都会遇到彼此,而且表现得很友好,即使你是在竞争对手那儿工作。」Jesse Levinson 说到,他是斯坦福大学团队的一名成员,在 2014 年与人联合创立了 Zoox Inc.,该初创公司的目标是制造全自动出租车。「我们都希望这项技术能够真正惠及社会。」


2007 年的最后一次 DARPA 比赛的总预算约为 3000 万美元。Jefferies 集团本月发布的一份报告显示,目前自动驾驶汽车技术的市场规模为 1000 亿美元,该数字不包括所涉汽车本身的价值。


炒作周期已处于白热化阶段:Lyft 刚刚筹集了 10 亿美元;通用汽车的巡航(Cruise)团队计划明年将在曼哈顿测试一组自动驾驶电动 Chevy Bolts;Waymo 正在菲尼克斯进行对 Uber 的公开审判;Elon Musk 称,特斯拉工厂生产的所有汽车都需要使用全自动化的硬件,并决心要展现一趟不碰方向盘的城际之旅。汽车制造商、供应商和初创公司将合力开发自动驾驶技术平台的消息每天都在发酵。


对于那些浸淫该领域更久的 DARPA 移民社群成员来说,他们仍然有很多工作要做。机器学习(人工智能的一种)领域已经有了巨大的进步,计算机不用通过显式编程来执行指令,且传感器硬件的成本正在下降。但自动驾驶背后的商业模式尚不清楚。我们是否将只订阅汽车而不是拥有它们?乘客是按英里还是按时间付费?如何证明自动化系统真的比人类驾驶员更安全?在三藩市的街道上训练出来的汽车,面对北京的路况也会有良好的表现吗?


通过使用多个传感器(摄像机、激光雷达和雷达)来训练机器人汽车去模仿人类的眼睛和大脑,这需要大量的数据和时间。「我们已经非常接近了,」Waymo 公司的 Montemerlo 说,「还有很多事情要做,但现在与 10 年前相比已有很大不同。」

从一开始就在那里工作的工程师们,现在经常把感性的乐观主义与对现存挑战的客观评估结合起来。Boss 的软件构建者 Salesky 反对任何认为自动驾驶汽车将在几年内变得司空见惯的观点。Urmson 是该观点的代表人物,他认为自动驾驶汽车将在他儿子拿到驾照前得到普及。他的儿子现在 14 岁。


「这就像生活中的所有其它事情一样,」Urmson 说,「要在多数情况下行得通,这是比较容易达到的;但要是一直如此,而且还得面对各种各样的状况,那么这就非常困难了。」


2010 年,在 Boss 完成震撼人心三点转向的三年后,在谷歌任职的 Urmson 就已开始向记者介绍自动驾驶驱动系统。「七年后,」他承认道,「我们仍在努力。」


]]> 原文: http://ift.tt/2xIEEgc
RSS Feed

机器知心

IFTTT

高额融资「狂欢」背后的旷视科技

撰文 | 吴欣


2017 年 10 月 31 日,中国人工智能创业公司旷视科技 Face++ (下简称旷视)宣布正式完成 C 轮 4.6 亿美金融资,本轮由中国国有资本风险投资基金(简称「国风投」)领投,蚂蚁金服、富士康集团联合领投。本轮融资由 C1、C2 两轮构成,同时引入包括中俄战略投资基金、阳光保险集团、SK 集团等新的重要投资者,腾达资本作为本轮融资独家财务顾问。


在宣传稿中提到,这一数字打破了国际范围内人工智能领域融资纪录。


4.6 亿美金,是继 5 月依图科技 3.8 亿人民币 C 轮融资、 7 月商汤科技 4.1 亿美元 B 轮融资之后,又一笔计算机视觉领域创业公司的大额融资。根据公开资料,在该轮融资前,成立于 2011 年的旷视,曾在2012年8月获得联想之星和联想创投天使投资,于 2013年获得创新工场 A 轮投资;2015 年获得来自创新工场、启明创投的 B 轮融资;2016 年,获得建银国际、富士康集团的 B+ 融资。


完成这次融资之后,旷视会进一步强化在金融安全、城市安防领域的投入,加快在城市综合大脑及手机智能领域的技术落地。「在业务方向,我们希望能够把以往各个单独领域的智能应用做到城市级别,因此,和很多中国重要的城市不仅签订了落户协议,还有智慧城市联合建设等合作,其中还包括一个机器人研发制造基地。」旷视市场副总裁谢忆楠对机器之心说。


在早前的采访中,去年 7 月加入旷视任首席科学家的孙剑也曾提到,公司已经向机器人行业提供硬件模组、内置算法。下一步会研究它的身体部分、手的部分、腿的部分,甚至是做完整的机器人。


作为中国最早一批投身人工智能的公司,旷视依托自主研发的深度学习引擎 MegBrain 实现了人工智能技术工程化、产品化和产业化。但商业化初见成果、融资额一路高涨、公司数量膨胀,并不足以验证风口上的人工智能已经走在整个产业的快车道。「人工智能的周期和路径也许是一个非常长期的革命。」旷视科技联合创始人兼 CEO 印奇曾在公开场合表达过对行业发展环境的看法,「我们判断如果行业能够从人脸(的识别)部分(推进)到决策部分,从 2011 年算起至少需要十年,现在是我们创业的第六年,而我们最大的感觉是真实进展情况比我们预估的延长了一到两年时间。」


寻找 AI 到达产业的「最后一公里」


事实上,从 2011 年公司起步,实现商业化的酝酿就已经开始。当时的旷视更多谈到的是算法,在去挖掘应用机会的时候,公司构建了一个免费的技术平台「 Face++ 」,并把它开放给开发者。


在印奇看来,这个平台还称不上是人工智能公司的重要形态,只是跨过了为行业应用方提供深度学习能力这一步,真正用 AI 驱动新行业的发展与行业深度结合,帮助这些应用方在同行业中形成差异化壁垒,比如新金融、新安防,才能真正发挥人工智能公司的价值。


在过去 2-3 年时间,旷视聚焦金融和安防两大应用场景,研究人工智能在其中的应用价值。由此,也实现了颇多商业化成果转化:


简单来说,旷视的商业化路径主要围绕「刷脸」,让人的「身份」与「行为」数据可以被感知和分析,从而实现从技术研发、产品化到商业化。覆盖线上支付到线下的交通等安防场景,从地铁、飞机场、火车站都分布其动态识别系统。


在具体产品方面,「智能云」和「智能互联」是公司的核心。从实际应用数据来看,截至 2017 年 6 月底,旷视核心技术已经累计推动 5 亿台设备实现智能化,并为这些设备提供了超过 200 亿次的智能服务。


根据不同场景的业务需求,旷视提供的智能行业解决方案为全球 2.1 亿人实现了远程实名验证服务、并为 25 省公安系统提供了实时警情数据服务,其中直接协助警方破获案件达 1032 起,抓获、控制的在逃人员超 2000 人。


在移动端,旷视提供的解决方案应用广泛,从小米 Note 3 手机的人脸解锁、金融级别防风险,到 vivo V7+ 人脸解锁应用,以及支付宝金融级别的刷脸支付方案。


印奇曾反复谈到过,他的 「4 in 1」公式——算法、软件、硬件、数据,一个真正优秀的 AI+ 行业的公司不光要做硬件,还要一直做到数据层面,数据就包含行业解决方案。


从 2015 年,旷视开始涉足硬件推出了集成智能识别摄像头,完成软件到硬件的升级。截至目前,旷视共生产物联网智能感知摄像头 6 款,智能物流机器人 1 款,赋能 25 家商用服务机器人识别能力。并为中信银行、阿里巴巴集团、滴滴出行、东软集团、凯德集团、富士康集团、公安部第一研究所等在内 800 余家政企单位提供了智能化的产品和服务。


按照包含算法、软件、硬件和数据的「4 in 1」公式,印奇认为,人工智能公司要遵循的可能是一个非常重的产业互联网打法,「所以这里面我也并不觉得会有那么多如雨后春笋般的 AI 创业机会。」


不过, AI 进入垂直行业时间不长竞争却几近白热化,在包括安防、金融、医疗等可见的应用场景中,人工智能创业公司扎堆,不少传统产业公司也在不遗余力地投资 AI 技术。对于如何从中争夺足够的市场空间,谢忆楠认为,「AI 与行业的结合属于新兴领域,所以做研究、算法、底层数据的人都需要有产品精神和产品意识,并不是在学术领域提出更多可能和假设。技术的本质是解决行业问题,旷视不仅要做纯粹技术上的绝对领先,也要做在行业、技术、产品方面的绝对领先,对于 AI 公司来说,这很难,但是必须要做。」


以深度学习为研究核心


实现商业化落地的背后,需要对技术的深度积累与沉淀。在印奇看来,这波人工智能产业的本质仍由奋斗技术驱动,深度学习为代表的人工智能技术。而对旷视而言,技术的发展路径则始终要遵循「4+2+X」,所谓「4+2+X」就是:


机器视觉领域四个最重要、最有商业价值的垂直门类:人脸识别,行人识别,车辆识别,以及文字识别;


「2」代表的是视觉和广义机器人的两个核心:手和脚。脚是自动驾驶、导航,手是大方向但真正兴起还需要时间;


「X」是人工智能定制化,深度学习技术最有吸引力的就是它能够产生相对通用的算法,所以在很多的细分领域,比如工业界里面对材料的识别,都非常容易通过深度学习框架在较短时间对大量数据进行训练而实现。


目前,旷视拥有国内外在申专利超过 440 件,是中国拥有人工智能技术自主知识产权最多的企业之一。孙剑曾在接受机器之心采访时提到旷视作为一家创业公司的贪心——不管是前沿技术的研究还是工程化,「(旷视)都要,而这也是最好的方式,我们付出很大精力和资源来研究和提升本质方法,本质方法的提升会传导到产品上去,比如精度更高了、速度更快了。这方面不能短视,必须短期、中期、长期(目标)都有。」


孙剑表示,公司在研究方面主要在集中在四个视觉理解核心问题上:图像分类、物体检测、语义分割、和序列学习。研究的技术路线则一直是彻彻底底的深度学习:1)使用深度神经网络;2)尽最大可能使用端到端(end-to-end)学习。


和其他大部分人工智能创业公司一样,众多研究成果离不开一支能力完整的顶尖人才团队。旷视研究部门的第一批「战士」来自于信息学竞赛 ( NOI/IOI ) 和大学生程序设计竞赛 ( ACM/ICPC ) 的选手们,此外,团队背景方面也开始越来越多元化,「以前做视觉的,也有做机器学习的,既有研究基本问题的,也有专注特定应用的。」在孙剑看来,一个多样性的环境也能帮助团队看问题更全面。


由此,研究科学家和全栈人工智能工程师,成为公司最为核心的两个团队培养方向。孙剑解释说:「研究科学家主要聚焦在算法上,寻求对问题的本质解,我们的培养目标是成为能独挡一面领域专家;全栈人工智能工程师是我们内部的叫法,目的是培养即能上九天揽月(算法设计和训练),又能下五洋捉鳖(算法的工程化,研究问题和方式系统化)的全能战士,他们既能做 research , 又懂 system,能建系统、造轮子。」据官方描述,旷视团队累计获得国际人工智能技术评测冠军 10 余项;获得国家、国际级信息学金奖人员超过 70 人次。


「我们知道人工智能最终的结局可能很诱人,但是在到达终点之前人工智能的发展还会有非常多次的迭代。所以本质上人工智能创业和投资还是需要回归到技术本身。」印奇在今年 6 月的一次行业大会上谈到。


]]> 原文: http://ift.tt/2xJH1iI
RSS Feed

机器知心

IFTTT

生成旋律,为作曲家提供最初的灵感,人工智能正在重塑创造音乐的方式

编译 | 王宇欣

来源 | thenextweb


音乐家的工作依赖人类不可预知且神秘的想象力,那么,人工智能是否会导致他们失业?


显然,这个问题的答案很复杂。


人工智能如同电力一样,正在渗入人类生活和社会的方方面面。如今,它也正在影响音乐,将极大改变我们创造音乐,演奏音乐的方式。


如何将人工智能应用到音乐?


人工智能的主要突破集中于机器学习算法,其中包括了图像分类、语音识别和转换等任务。当给定音乐数据时,机器学习算法可以找到模式定义音乐的每种风格和类型,用途不仅仅在于对音乐进行分类和版权保护。正如研究员所表明的,机器学习算法可以构建它们自己独特的乐谱。


一个典型的例子就是 Google 的 Magenta。Magenta 致力于推动机器生成艺术,使用 Goolge 的 TensorFlow 平台,Magenta 团队成功开发出生成旋律和新型乐器声音的算法。此外,Magenta 还在探索人工智能和艺术更广泛的结合,并已深入其他领域,比如绘画。


由索尼计算机科学实验室负责的工程 Flow Machines,同样在利用人工智能创建音乐的工作中取得了进展。研究团队用 13,000 种不同音乐类型的旋律对其机器学习算法进行训练,然后让算法生成自己风格的音乐。Daddy's Car 即是这样一首歌曲,这首歌的歌词由人类撰写,但其旋律完全由算法生成,风格也模仿了披头士。


另一个有趣的项目是 Folk-rnn,这是由金斯顿大学和伦敦玛丽皇后学院的研究员们在采集 23,000 首爱尔兰民族音乐的全部精华之后,开发的机器学习算法,由此 Folk-rnn 可以写出自己独特爱尔兰风格的曲谱。


目前,还没有研究团队声称他们的算法将会代替音乐家和作曲家。相反地,研究人员相信人工智能算法将会与音乐家通力合作,加速音乐家的工作,以及用此前难以实现的方式帮助他们提高技艺。比如,人工智能算法可以生成歌曲的基本结构为作曲家提供最初的灵感,然后让他们完成曲调和旋律的调整。


人工智能在音乐产业中真实的应用


当研究员们致力于塑造音乐未来的同时,相当数量的初创企业已经使用人工智能技术去满足现实生活中的使用事例。


Jukedeck 就是一个例子。Jukedeck 是一家使用机器学习创建音乐曲目的网站,用户具体制定一些参数,比如风格、氛围和节奏,Jukedeck 生成一首独特的歌曲。Jukedeck 的目的不是创造完美的以及可以获奖的音乐。相反,它想要迎合人们和公司的需要,这些人想要找到一种价格适中、能够快速获得高质量且免除版税的音乐产品的方法,然后将这些音乐用在视频和展示中。


AI Music 是另一家活跃在这个领域的公司。然而,比起创造音乐,该公司则是使用人工智能修改现存的音乐来更好地契合演奏时的环境。比如,在视频当中播放音乐的时候,AI Music 可以自动合成并调整其节奏来配合视频中人像的脚步或刺激的高速车辆追逐的情景。


澳大利亚初创公司 Popgun 正在致力于让深度学习算法倾听系列人类音乐家演奏的音符,然后自主生成音符序列。目前,Popgun 正在开发一种算法,使其能够生成循环往复的二重唱风格,其开发者坚信该算法最终会发展成一项智能技术,来实时配合人类演出者。


这些技术的发展并没有对汉斯·季默(Hans Zimmer)和拉民·贾瓦迪(Ramin Djawadi)的工作造成威胁。公平地说,具有人类水平的 AI 会威胁到人类创造力的复杂性,但是就目前来说,人工智能正在使音乐的创造变得简单。创造音乐需要的一些稀缺技能或许会被消除,总的来说,AI 会帮助专业作曲家,消费者和音乐爱好者也会从中受益。


]]> 原文: http://ift.tt/2lAVM6a
RSS Feed

机器知心

IFTTT

独家 | Face++印奇:AI是场持久战,但第一阶段明年结束

若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

印奇今年29岁。

六年前,他创办了人工智能公司旷视科技(Face++)。这家公司提供的产品和服务,很像美剧《疑犯追踪》中的场景。

昨天,Face++宣布完成C轮4.6亿美元融资,换算成人民币超过30亿元。

这也是目前国内外AI公司单轮融资最高的一次。这笔钱背后的领投方是中国国有资本风险投资基金(国风投),蚂蚁金服、富士康等战略投资。

算上这次的融资,今年5月以来,国内专注于计算机视觉领域的AI公司,不到半年的时间已经累积融资超过60亿元。

毫无疑问,资本的助推将让这块AI主战场上的争夺更加激烈。要知道,这个领域的明争暗斗已经愈演愈烈。

这次Face++融资之后,会带来怎样的改变?

量子位的种种疑问,Face++创始人兼CEO印奇,一一作答。我们也把问答过程整理如下,这是印奇对现状和未来的真实表达。

关于融资

量子位:这次融资何时启动?

印奇:去年底开始。

量子位:友商评论说C轮这个融资额不算高。

印奇:我们只care尊敬的对手。其他人的评价我们不介意,现在的融资轮次(A1、A2、B1、B2……),大家都不往上走,都在play trick。

融资的额度不代表公司好坏。有些融资不高的公司,比融资多的公司技术还好。这个行业里面,没有资本能力,比较难长期生存。但是光有资本能力,也不是这个行业的决定性力量。

量子位:资本挤入这个领域带来什么影响?

印奇:钱不能决定谁是第一,但是会让战局时间拉长。但是不会改变竞争格局。

量子位:为什么选定这几个投资方?

印奇:领投方是国风投,我们很多业务跟国家战略有关,希望得到支持。这个基金的领导,对行业也非常有洞见。蚂蚁金服在金融创新,富士康在硬件领域都是最牛的公司。富士康有很深的生态链,包括手机、传感器等。

我们的投资人数量非常少。我们倾向于每个轮次都有战略资源注入,所有资本都是为业务服务的。

量子位:融资的需求迫切么?

印奇:我们运营不需要外部资金帮助。所以融资不是用来维持生存。

近期部分CV公司融资情况(换算成人民币)

融资的用途

量子位:所以这笔新融到的钱会用在哪里?

印奇:钱,本质上还是用来把这场仗打得更漂亮。我们的投入分前线和后线。

后线,也就是研发领域,不是简单的招更多科研人员。未来研发一定是基础设施的投入,包括超算中心的集群、系统构建。依赖人是初级阶段,未来的AI技术一定是自动化的。包括算法的产生也是自动化。我们会在这个方向投入大量的研发力量。

国外公司已经在沿着这个方向走,这是正确的发展方向。哄抬人才身价,对于行业发展不利。未来一定是让系统做更多的事情。

前线,我们选择的三个方向:金融安全、城市大脑、手机智能,会有非常大的投入。想要做深还要很多支持。与互联网行业不同,这些行业不适用于单点突破,需要产品、解决方案、售前、销售等方面,全面地来做这些事情。

一定永远是产品和服务投入。公司最后要看你提供什么服务,有什么差异化。从这个逻辑来说,技术只是提供了差异化,而不是服务本身。

一个AI公司仅仅强调技术是不对的,而是看背后的服务,客户的认可。

量子位:你提到AI自动化。

印奇:就是如何让单人的人效更高。现在一个AI工程师只有10%的时间在用TensorFlow解决问题、训练模型,另外90%的时间在数据分析、清理等各种环节。如何让AI工程师提高十倍甚至百倍的工作效率?

这就需要把一个完整的平台做好,也需要一个更好的、类似TensorFlow的引擎。一个All in One的系统,是我们花了最大精力在做的事情。

其次,假设需要100个人+100台机器解决一个问题。我们在想,能不能用20个人,但用10倍的计算力,来解决这个问题。优秀的AI人才非常稀缺,所以需要在资源变得供不应求之前,把如何用更少的人、更多的机器解决问题这件事想清楚。

机器是越来越便宜的,人是越来越贵的。

量子位:所以计算力比算法更重要?

印奇:对。

算法,其实你回顾深度学习,最近十年的发展。真正突破性的研究,10篇论文之内。科研是突破边界,这样的成果非常少。这些工作我们要做,坚持原创和创新。但是大部分工作,是一个数据科学家的工作,是重复的劳动,这个怎么通过机器取代,是行业升级的本质。

创新的工作,我们雇佣最顶尖的人才去解决。

本质的创新,方法论是不一样的。

标准

量子位:顶尖人才什么标准?博士数量?

印奇:我是博士辍学。博士也好、清华也好,都不是评价好坏的标准。未来的AI工程师,还是一个工程师。人类总是觉得自己不一样,但回顾历史,最优秀的工程师、黑客也不是PhD。论文发布也不代表公司的技术能力。

量子位:如何衡量一个AI公司的好坏?

印奇:我们内部有两句话。第一句,技术信仰。第二,价值务实。

技术信仰。我们投入到工业界,不是为了获得大家的喝彩,而是真正的改变生活。我们提匠人精神,这是对行业更好的推动。当你希望做成一个AI的伟大公司,应该追求更本质的创新。

我们发布的论文不多,但是都被科技巨头引用,这个是真正有价值。有些东西我们为了IP保护,并不会对外说。

最重要的是,你要相信所做的工作最终是通向人工智能的梦想。路边的野花野草都采,你就到不了终点。

价值务实。明年的AI格局会发生变化,所有的公司会回到业务说话。现在所有AI产品做得都很烂,包括我们,包括所有大公司。这是人类历史上最难的产品。

例如微信,他的软硬件都是成熟的。而AI是从底层开始做一个全新的系统,想要完美,是一个非常难的过程。

AI会深度改变其他行业,我们之所以不吹牛,是我们做得还不够好,行业还不够好。两三年后,AI产品能惊艳大家之后,才有资格吹吹牛。我希望大家都不要吹牛,好好做事。

量子位:两三年后什么样?

印奇:现在很多产品,已经非常好地改变了生活。金融安全里面,很多在线金融业务已经可以刷脸,大大方便了用户。但现在的落地都是在垂直领域。未来AI应该会更多改变大家的日常生活。

乔布斯说的那句话很好,一个技术真正成熟的时候,就是你感知不到的时候。

明年见分晓

量子位:竞争愈发激烈,你的心态有变化么?

印奇:我原来有点求速胜。王兴说,未来的主赛道,都是长期战争状态,这个观点我同意。战争是常态化的。

量子位:现在的格局是怎样的?

印奇:在金融安全板块,战争已经基本结束。

安防领域,到明年格局就明确了,有新兴公司AI业务公司、有行业巨头、有传统的科技巨头,未来可能是三分天下。

手机智能行业,我们之前坦白说花的精力不多,现在随着手机硬件不断更新换代,我们觉得里面大有可为。这个行业需要踏实扎进去。

未来我们还会布局工业界和服务机器人,现在产品已经出来。

明年,这个行业的竞争会越来越业务导向,届时公布业务数字,大家就知道行业的情况是怎样的。有些大家熟知的公司,业务非常差。

量子位:无人车不做么?

印奇:无人车我们不做。

互联网公司一定要对车有敬意,很多互联网公司会倒在这里。我们认为单凭AI技术,很难撬动汽车行业。

未来如果我们做,一定是因为核心算法、传感器、高清地图、整车制造四个领域里面,至少有了两个或者以上的强项。

量子位:会向计算机视觉之外的领域延伸么?

印奇:现在AI领域,本质上只剩两个主要行业,视觉和NLP。

两者既有并列关系,又有递进关系。我们不会横向打,而是从视觉向感知纵向补充。

持久战

量子位:你们的发展逻辑是什么?

印奇:一个公司还是要把战略想清楚。我们的核心方法论是双轮交替驱动:技术和场景。我们最早是技术起家,很久之后才找到金融的场景。这个场景成熟的时候,技术也在慢慢往前跑。

平衡感非常重要,互联网讲究快、单点突破,而现在新一代的产业互联网公司都不简单是这个逻辑。快仍然很重要,但单点突破这件事,应该既要猛还要稳。

因为这些行业很厚,一个单点打不动,你要有很好的布局。

量子位:你提到战争,这场仗怎么打?

印奇:这是一个持久战、长跑,你要有策略。互联网是百米冲刺,AI是长跑,既要有爆发力,也要跑得持久,不能饮鸩止渴。

量子位:但你也说明年格局就定了。

印奇:明年是AI第一阶段战斗的结束。这个大潮把大家扔到海里,没有抱住木头的公司会挂掉。第一阶段,大家业务规模很难做到100亿。第二阶段,是行业深挖,开拓更多场景。现在的场景深度是不够的,AI的场景还会不断深化。

第一阶段是独角兽体量,第二阶段是百亿美元公司。

量子位:Face++会成为一个怎样的公司?

印奇:希望成为世界最顶尖的技术公司,这个路径得走10年、20年。

量子位:战争结束时什么样?

印奇:就像IT领域会产生微软,互联网领域产生Google一样。AI波及的行业非常大,一定会有好几家庞然大物的公司,在自己的领域非常有话语权。AI会颠覆现有的科技行业竞争格局。

量子位:你焦虑么?

印奇:当然,当然会有。作为创业者,我每天都在焦虑。

我最近几年在学滑雪。这个过程很像滑雪,创业就是从坡上下来,你选择的行业越热门,这个坡就越陡,速度会越快,一直不会放松。最后你发现技能越高,控制越好,逐渐适应不断提高的速度,游刃有余。

前辈企业家面临的困难比我们多。企业家成功时会说这是运气,但上了一百次战场还活着,一定不是运气而是实力。创业其实是一种修炼。企业能发展多大,跟企业家自身的格局境界有关。

这是很辛苦,但是很享受的过程。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2zWXK2Y
RSS Feed

RSS5

IFTTT

独家 | Face++印奇:AI是场持久战,但第一阶段明年结束

若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

印奇今年29岁。

六年前,他创办了人工智能公司旷视科技(Face++)。这家公司提供的产品和服务,很像美剧《疑犯追踪》中的场景。

昨天,Face++宣布完成C轮4.6亿美元融资,换算成人民币超过30亿元。

这也是目前国内外AI公司单轮融资最高的一次。这笔钱背后的领投方是中国国有资本风险投资基金(国风投),蚂蚁金服、富士康等战略投资。

算上这次的融资,今年5月以来,国内专注于计算机视觉领域的AI公司,不到半年的时间已经累积融资超过60亿元。

毫无疑问,资本的助推将让这块AI主战场上的争夺更加激烈。要知道,这个领域的明争暗斗已经愈演愈烈。

这次Face++融资之后,会带来怎样的改变?

量子位的种种疑问,Face++创始人兼CEO印奇,一一作答。我们也把问答过程整理如下,这是印奇对现状和未来的真实表达。

关于融资

量子位:这次融资何时启动?

印奇:去年底开始。

量子位:友商评论说C轮这个融资额不算高。

印奇:我们只care尊敬的对手。其他人的评价我们不介意,现在的融资轮次(A1、A2、B1、B2……),大家都不往上走,都在play trick。

融资的额度不代表公司好坏。有些融资不高的公司,比融资多的公司技术还好。这个行业里面,没有资本能力,比较难长期生存。但是光有资本能力,也不是这个行业的决定性力量。

量子位:资本挤入这个领域带来什么影响?

印奇:钱不能决定谁是第一,但是会让战局时间拉长。但是不会改变竞争格局。

量子位:为什么选定这几个投资方?

印奇:领投方是国风投,我们很多业务跟国家战略有关,希望得到支持。这个基金的领导,对行业也非常有洞见。蚂蚁金服在金融创新,富士康在硬件领域都是最牛的公司。富士康有很深的生态链,包括手机、传感器等。

我们的投资人数量非常少。我们倾向于每个轮次都有战略资源注入,所有资本都是为业务服务的。

量子位:融资的需求迫切么?

印奇:我们运营不需要外部资金帮助。所以融资不是用来维持生存。

近期部分CV公司融资情况(换算成人民币)

融资的用途

量子位:所以这笔新融到的钱会用在哪里?

印奇:钱,本质上还是用来把这场仗打得更漂亮。我们的投入分前线和后线。

后线,也就是研发领域,不是简单的招更多科研人员。未来研发一定是基础设施的投入,包括超算中心的集群、系统构建。依赖人是初级阶段,未来的AI技术一定是自动化的。包括算法的产生也是自动化。我们会在这个方向投入大量的研发力量。

国外公司已经在沿着这个方向走,这是正确的发展方向。哄抬人才身价,对于行业发展不利。未来一定是让系统做更多的事情。

前线,我们选择的三个方向:金融安全、城市大脑、手机智能,会有非常大的投入。想要做深还要很多支持。与互联网行业不同,这些行业不适用于单点突破,需要产品、解决方案、售前、销售等方面,全面地来做这些事情。

一定永远是产品和服务投入。公司最后要看你提供什么服务,有什么差异化。从这个逻辑来说,技术只是提供了差异化,而不是服务本身。

一个AI公司仅仅强调技术是不对的,而是看背后的服务,客户的认可。

量子位:你提到AI自动化。

印奇:就是如何让单人的人效更高。现在一个AI工程师只有10%的时间在用TensorFlow解决问题、训练模型,另外90%的时间在数据分析、清理等各种环节。如何让AI工程师提高十倍甚至百倍的工作效率?

这就需要把一个完整的平台做好,也需要一个更好的、类似TensorFlow的引擎。一个All in One的系统,是我们花了最大精力在做的事情。

其次,假设需要100个人+100台机器解决一个问题。我们在想,能不能用20个人,但用10倍的计算力,来解决这个问题。优秀的AI人才非常稀缺,所以需要在资源变得供不应求之前,把如何用更少的人、更多的机器解决问题这件事想清楚。

机器是越来越便宜的,人是越来越贵的。

量子位:所以计算力比算法更重要?

印奇:对。

算法,其实你回顾深度学习,最近十年的发展。真正突破性的研究,10篇论文之内。科研是突破边界,这样的成果非常少。这些工作我们要做,坚持原创和创新。但是大部分工作,是一个数据科学家的工作,是重复的劳动,这个怎么通过机器取代,是行业升级的本质。

创新的工作,我们雇佣最顶尖的人才去解决。

本质的创新,方法论是不一样的。

标准

量子位:顶尖人才什么标准?博士数量?

印奇:我是博士辍学。博士也好、清华也好,都不是评价好坏的标准。未来的AI工程师,还是一个工程师。人类总是觉得自己不一样,但回顾历史,最优秀的工程师、黑客也不是PhD。论文发布也不代表公司的技术能力。

量子位:如何衡量一个AI公司的好坏?

印奇:我们内部有两句话。第一句,技术信仰。第二,价值务实。

技术信仰。我们投入到工业界,不是为了获得大家的喝彩,而是真正的改变生活。我们提匠人精神,这是对行业更好的推动。当你希望做成一个AI的伟大公司,应该追求更本质的创新。

我们发布的论文不多,但是都被科技巨头引用,这个是真正有价值。有些东西我们为了IP保护,并不会对外说。

最重要的是,你要相信所做的工作最终是通向人工智能的梦想。路边的野花野草都采,你就到不了终点。

价值务实。明年的AI格局会发生变化,所有的公司会回到业务说话。现在所有AI产品做得都很烂,包括我们,包括所有大公司。这是人类历史上最难的产品。

例如微信,他的软硬件都是成熟的。而AI是从底层开始做一个全新的系统,想要完美,是一个非常难的过程。

AI会深度改变其他行业,我们之所以不吹牛,是我们做得还不够好,行业还不够好。两三年后,AI产品能惊艳大家之后,才有资格吹吹牛。我希望大家都不要吹牛,好好做事。

量子位:两三年后什么样?

印奇:现在很多产品,已经非常好地改变了生活。金融安全里面,很多在线金融业务已经可以刷脸,大大方便了用户。但现在的落地都是在垂直领域。未来AI应该会更多改变大家的日常生活。

乔布斯说的那句话很好,一个技术真正成熟的时候,就是你感知不到的时候。

明年见分晓

量子位:竞争愈发激烈,你的心态有变化么?

印奇:我原来有点求速胜。王兴说,未来的主赛道,都是长期战争状态,这个观点我同意。战争是常态化的。

量子位:现在的格局是怎样的?

印奇:在金融安全板块,战争已经基本结束。

安防领域,到明年格局就明确了,有新兴公司AI业务公司、有行业巨头、有传统的科技巨头,未来可能是三分天下。

手机智能行业,我们之前坦白说花的精力不多,现在随着手机硬件不断更新换代,我们觉得里面大有可为。这个行业需要踏实扎进去。

未来我们还会布局工业界和服务机器人,现在产品已经出来。

明年,这个行业的竞争会越来越业务导向,届时公布业务数字,大家就知道行业的情况是怎样的。有些大家熟知的公司,业务非常差。

量子位:无人车不做么?

印奇:无人车我们不做。

互联网公司一定要对车有敬意,很多互联网公司会倒在这里。我们认为单凭AI技术,很难撬动汽车行业。

未来如果我们做,一定是因为核心算法、传感器、高清地图、整车制造四个领域里面,至少有了两个或者以上的强项。

量子位:会向计算机视觉之外的领域延伸么?

印奇:现在AI领域,本质上只剩两个主要行业,视觉和NLP。

两者既有并列关系,又有递进关系。我们不会横向打,而是从视觉向感知纵向补充。

持久战

量子位:你们的发展逻辑是什么?

印奇:一个公司还是要把战略想清楚。我们的核心方法论是双轮交替驱动:技术和场景。我们最早是技术起家,很久之后才找到金融的场景。这个场景成熟的时候,技术也在慢慢往前跑。

平衡感非常重要,互联网讲究快、单点突破,而现在新一代的产业互联网公司都不简单是这个逻辑。快仍然很重要,但单点突破这件事,应该既要猛还要稳。

因为这些行业很厚,一个单点打不动,你要有很好的布局。

量子位:你提到战争,这场仗怎么打?

印奇:这是一个持久战、长跑,你要有策略。互联网是百米冲刺,AI是长跑,既要有爆发力,也要跑得持久,不能饮鸩止渴。

量子位:但你也说明年格局就定了。

印奇:明年是AI第一阶段战斗的结束。这个大潮把大家扔到海里,没有抱住木头的公司会挂掉。第一阶段,大家业务规模很难做到100亿。第二阶段,是行业深挖,开拓更多场景。现在的场景深度是不够的,AI的场景还会不断深化。

第一阶段是独角兽体量,第二阶段是百亿美元公司。

量子位:Face++会成为一个怎样的公司?

印奇:希望成为世界最顶尖的技术公司,这个路径得走10年、20年。

量子位:战争结束时什么样?

印奇:就像IT领域会产生微软,互联网领域产生Google一样。AI波及的行业非常大,一定会有好几家庞然大物的公司,在自己的领域非常有话语权。AI会颠覆现有的科技行业竞争格局。

量子位:你焦虑么?

印奇:当然,当然会有。作为创业者,我每天都在焦虑。

我最近几年在学滑雪。这个过程很像滑雪,创业就是从坡上下来,你选择的行业越热门,这个坡就越陡,速度会越快,一直不会放松。最后你发现技能越高,控制越好,逐渐适应不断提高的速度,游刃有余。

前辈企业家面临的困难比我们多。企业家成功时会说这是运气,但上了一百次战场还活着,一定不是运气而是实力。创业其实是一种修炼。企业能发展多大,跟企业家自身的格局境界有关。

这是很辛苦,但是很享受的过程。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2zWXK2Y
RSS Feed

RSS5

IFTTT

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...