2017年11月3日星期五

了解神经网络,你需要知道的名词都在这里

近日,Mate Labs 联合创始人兼 CTO 在 Medium 上撰文《Everything you need to know about Neural Networks》,从神经元到 Epoch,扼要介绍了神经网络的主要核心术语。


理解什么是人工智能,以及机器学习和深度学习如何影响它,是一种不同凡响的体验。在 Mate Labs 我们有一群自学有成的工程师,希望本文能够分享一些学习的经验和捷径,帮助机器学习入门者理解一些核心术语的意义。


神经元(节点)—神经网络的基本单元,它包括特定数量的输入和一个偏置值。当一个信号(值)输入,它乘以一个权重值。如果一个神经元有 4 个输入,则有 4 个可在训练中调节的权重值。



神经网络中一个神经元的运算



连接—它负责连接同层或两层之间的神经元,一个连接总是带有一个权重值。训练的目标是更新这一权重值以降低损失(误差)。


偏置(Offset)—它是神经元的额外输入,值总是 1,并有自己的连接权重。这确保即使当所有输入为 0 时,神经元中也存在一个激活函数。


激活函数(迁移函数)—激活函数负责为神经网络引入非线性特征。它把值压缩到一个更小范围,即一个 Sigmoid 激活函数的值区间为 [0,1]。深度学习中有很多激活函数,ReLU、SeLU 、TanH 较 Sigmoid 更为常用。更多激活函数,请参见《一文概览深度学习中的激活函数》


各种激活函数



基本的神经网络设计


输入层—神经网络的第一层。它接收输入信号(值)并将其传递至下一层,但不对输入信号(值)执行任何运算。它没有自己的权重值和偏置值。我们的网络中有 4 个输入信号 x1、x2、x3、x4。


隐藏层—隐藏层的神经元(节点)通过不同方式转换输入数据。一个隐藏层是一个垂直堆栈的神经元集。下面的图像有 5 个隐藏层,第 1 个隐藏层有 4 个神经元(节点),第 2 个 5 个神经元,第 3 个 6 个神经元,第 4 个 4 个神经元,第 5 个 3 个神经元。最后一个隐藏层把值传递给输出层。隐藏层中所有的神经元彼此连接,下一层的每个神经元也是同样情况,从而我们得到一个全连接的隐藏层。


输出层—它是神经网络的最后一层,接收来自最后一个隐藏层的输入。通过它我们可以得到合理范围内的理想数值。该神经网络的输出层有 3 个神经元,分别输出 y1、y2、y3。


输入形状—它是我们传递到输入层的输入矩阵的形状。我们的神经网络的输入层有 4 个神经元,它预计 1 个样本中的 4 个值。该网络的理想输入形状是 (1, 4, 1),如果我们一次馈送它一个样本。如果我们馈送 100 个样本,输入形状将是 (100, 4, 1)。不同的库预计有不同格式的形状。


权重(参数)—权重表征不同单元之间连接的强度。如果从节点 1 到节点 2 的权重有较大量级,即意味着神将元 1 对神经元 2 有较大的影响力。一个权重降低了输入值的重要性。权重近于 0 意味着改变这一输入将不会改变输出。负权重意味着增加这一输入将会降低输出。权重决定着输入对输出的影响力。


前向传播


前向传播—它是把输入值馈送至神经网络的过程,并获得一个我们称之为预测值的输出。有时我们也把前向传播称为推断。当我们馈送输入值到神经网络的第一层时,它不执行任何运算。第二层接收第一层的值,接着执行乘法、加法和激活运算,然后传递至下一层。后续的层重复相同过程,最后我们从最后一层获得输出值。



反向传播


反向传播—前向传播之后我们得到一个输出值,即预测值。为了计算误差我们对比了带有真实输出值的预测值。我们使用一个损失函数(下文提及)计算误差值。接着我们计算每个误差值的导数和神经网络的每个权重。反向传播运用微分学中的链式法则,在其中我们首先计算最后一层中每个误差值的导数。我们调用这些导数、梯度,并使用这些梯度值计算倒数第二层的梯度,并重复这一过程直到获得梯度以及每个权重。接着我们从权重值中减去这一梯度值以降低误差。通过这种方式我们不断接近局部最小值(即最小损失)。



学习率—训练神经网络的时候通常会使用梯度下降优化权重。在每一次迭代中使用反向传播计算损失函数对每一个权重的导数,并从当前权重减去导数和学习率的乘积。学习率决定了更新权重(参数)值的快慢。学习率应该尽可能高而不会花费太多时间达到收敛,也应该尽可能低从而能找到局部最优。


精度和召回率


准确率—测量值对标准(或已知)值的接近程度。


精度—两个测量值之间的接近程度,表示测量的可重复性或可再现性。


召回率(敏感度)—全部相关实例中被恢复的相关实例的比率。



Tp 指真正,Tn 指真负,Fp 指假正,Fn 指假负。


混淆矩阵—维基百科的解释是:


机器学习领域和统计分类问题中,混淆矩阵(也称为误差矩阵/error matrix)是一个算法性能的可视化表格,通常在监督学习中使用(无监督学习中混淆矩阵通常称为匹配矩阵,/matching matrix)。矩阵的每一行表示一个预测类,每一列表示一个真实类(或相反)。使用真实的名词使其易于解读,能简单地看出系统对两个类别的混淆程度(即将一个类别的物体标记为另一个)。



混淆矩阵


收敛—随着迭代次数增加,输出越来越接近具体的值。


正则化—用于克服过拟合问题。正则化过程中通过添加一个 L1(LASSO)或 L2(Ridge)规范到权重向量 w(通过给定算法学习到的参数)上以「惩罚」损失项:


L(损失函数)+λN(w)—这里的λ是正则项,N(w)是 L1 或 L2 规范。


归一化—数据归一化是将一个或多个属性缩放至 0 到 1 的范围的过程。当不知道数据分布或分布不是高斯分布(钟形曲线)()的时候,归一化是很有用的,可加速学习过程。


全连接层—一个层所有的节点的激活函数值作为下一层的每个节点的输入,若这对所有的层都成立,则称这些层为全连接层。



全连接层


损失函数/代价函数—损失函数计算单个训练样本的误差,代价函数是整个训练集的损失函数的平均。

  • 「mse」—平均方差
  • 「binary_crossentropy」—二分类对数损失(logloss)
  • 「categorical_crossentropy」—多分类对数损失(logloss)


模型优化器—优化器是一种搜索技术,用于更新模型的权重。


  • SGD—随机梯度下降,支持动量算法。
  • RMSprop—适应性学习率优化方法,由 Geoff Hinton 提出。
  • Adam—适应性矩估计(Adam)并同样使用了适应性学习率。


性能指标—用于测量神经网络性能的指标,例如,准确率、损失、验证准确率、验证损失、平均绝对误差、精度、召回率和 f1 分数等等。


批大小—一次前向/反向传播中适用的样本数,批大小越大,占用的内存量越大。


训练 epochs—模型在训练数据集上重复训练的总次数。


一个 epoch = 全部训练实例的一次前向和一次反向传播。

]]> 原文: http://ift.tt/2zvjEOB
RSS Feed

机器知心

IFTTT

清华大学开源OpenKE:知识表示学习平台

清华大学自然语言处理实验室近日发布了 OpenKE 平台,整合了 TransE、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx 等算法的统一接口高效实现,以及面向 WikiData 和 Freebase 预训练知识表示模型。该项目旨在为开发者与研究人员提供便利。


  • 项目链接:http://ift.tt/2h4W4gB
  • GitHub:http://ift.tt/2h5OSnY


OpenKE 是一个开源的知识表示学习平台,由 THUNLP 基于 TensorFlow 工具包开发。在 OpenKE 中,我们提供了快速和稳定的工具包,包括最流行的知识表示学习(knowledge representation learning,KRL)方法。该框架具有容易拓展和便于设计新的知识表示学习模型的特点。


该框架有如下特征:


  • 拥有配置多种训练环境和经典模型的简易接口;
  • 对高性能 GPU 训练进行加速和内存优化;
  • 高效轻量级的 C++实现,用于快速部署和多线程加速;
  • 现有大规模知识图谱的预训练嵌入,可用于多种相关任务;
  • 长期维护以修复 bug,满足新需求。


基准测试


一些数据集如 FB15K、FB13、WN18 和 WN11 通常用于知识表示学习的基准测试。我们以 FB15K 和为 WN18 为例介绍我们的框架的输入文件的格式。


数据集有以下五种格式:


  • train.txt:训练文件,每行以 (e1, e2, rel) 格式书写,第一行是三元组的数量;
  • valid.txt:验证文件,和 train.txt 格式一样;
  • test.txt:测试文件,和 train.txt 格式一样;
  • entity.txt:所有的实体和对应的 id,每行一个实体及其 id;
  • relation2id.txt:所有的关系和对应的 id,每行一个关系及其 id。


还可以从以下地址下载原始数据:


FB15K、WN18:http://ift.tt/2urpBW2

相关论文:Translating Embeddings for Modeling Multi-relational Data(2013)

FB13、WN11:http://ift.tt/2itaEyJ

相关论文:Reasoning With Neural Tensor Networks for Knowledge Base Completion


工具包


我们提供了多个知识表示学习的工具包,包括以下四个资源库:


OpenKE


这是一个基于 TensorFlow 的知识表示学习(KRL)的高效实现。我们使用 C++实现了一些基础操作,如数据预处理和负采样。每一个特定的模型都用 TensorFlow 和 Python 接口实现,因此能方便地在 GPU 上运行模型。


OpenKE 提供了训练和测试多种 KRL 模型的简易接口,无需在冗余数据处理和内存控制上花费太多功夫。OpenKE 实现了一些经典和高效的模型用于支持知识表示学习,这些模型包括:

  • TransE

http://ift.tt/2cDnwR6

  • TransH

http://ift.tt/2ivJKpF

  • TransR

http://ift.tt/2h4W4x7

  • TransD

http://ift.tt/2itaG9P

  • RESCAL

http://ift.tt/2aLBlhU

  • DistMult

http://ift.tt/2iuH4sE

  • HolE

http://ift.tt/2h3JhuI

  • ComplEx

http://ift.tt/2itaHdT

我们提供了训练这些模型的教程:http://ift.tt/2h2FI7V

此外,我们还使用一些简单的例子展示了如何基于 OpenKE 构建一个新模型。

Github 链接:http://ift.tt/2h5OSnY


KB2E


KB2E 是一些知识嵌入模型的早期实现,我们之前的研究中使用了很多资源。这些代码将被逐渐纳入新框架 OpenKE。这是一个基础且稳定的知识图谱嵌入工具包,包括 TransE、TransH、TransR 和 PTransE。该工具包的实现遵循模型的原始文件设置,使其在研究实验中保持稳定。

GitHub 链接:http://ift.tt/2ekSMG8


Fast-TransX


这是 TransE 及其扩展模型用于知识表示学习的高效轻量级实现,包括 TransH、TransR、TransD、TranSparse 和 PTransE。整个框架的底层设计为实现加速作出改变,且该框架支持多线程训练。Fast-TransX 旨在使用 OpenKE 框架实现快速、简单的部署。


GitHub 链接:http://ift.tt/2h454CB


TensorFlow-TransX


OpenKE 基于 TensorFlow 的简易版,包括 TransE、TransH、TransR 和 TransD。与 Fast-TransX 类似,TensorFlow-TransX 旨在避免使用 OpenKE 框架产生的复杂封装。

GitHub 链接:http://ift.tt/2nl9Qw1


预训练嵌入


现有大规模知识图谱使用 OpenKE 对嵌入进行预训练(目前都通过 TransE 进行训练。必要时会介绍更多模型)。


知识图谱和嵌入包括以下五个文件:

  • 实体的嵌入:知识图谱中每个实体的嵌入。数据是二进制格式,每一行有一个嵌入。每一行用大量连续浮点表示这一行的嵌入。
  • 关系嵌入:知识图谱中每一个关系的嵌入。数据是二进制格式,每一行有一个嵌入。每一行用大量连续浮点表示这一行的嵌入。
  • Triple2id:知识图谱的知识三元组与对应序列号之间的映射。每一行有一个三元组和序列号,二者用一个 tab 隔开。
  • Entity2id:知识图谱的实体与对应序列号之间的映射。每一行有一个实体和序列号,二者用一个 tab 隔开。
  • Relation2id:知识图谱的关系与对应序列号之间的映射。每一行有一个关系和序列号,二者用一个 tab 隔开。

文件描述和下载链接:




Wikidata:http://ift.tt/2itaR4Z

Freebase:http://ift.tt/2h3WUtY


如何阅读二进制文件:

  • Python
  1. #Python codes to read the binary files.

  2. import numpy as np

  3. vec = np.memmap(filename , dtype='float32', mode='r')

  • C/C++
  1. //C(C++) codes to read the binary files.

  2. #include

  3. #include

  4. #include

  5. #include

  6. #include

  7. #include

  8. #include

  9. struct stat statbuf;

  10. int fd;

  11. float* vec;

  12. int main() {

  13.  if(stat(filename, &statbuf)!=-1) {

  14.    fd = open("relation2vec.bin", O_RDONLY);

  15.    vec = (float*)mmap(NULL, statbuf.st_size, PROT_READ, MAP_PRIVATE, fd, 0);

  16.  }

  17.  return 0;

  18. }

]]> 原文: http://ift.tt/2ivGYAP
RSS Feed

机器知心

IFTTT

面向星际争霸:DeepMind 提出多智能体强化学习新方法

不久前 DeepMind 强化学习团队负责人、AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文,提出了多智能体强化学习方法,有望为星际争霸等游戏的 AI 技术的开发提供帮助。该论文也将出现在 12 月美国长滩举行的 NIPS 2017 大会上。


深度强化学习结合深度学习 [57] 和强化学习 [92, 62] 来计算决策策略 [71, 70]。传统来说,单个智能体与所处环境进行重复互动,从观察结果中学习,进而迭代地改善自己的策略。受近期深度强化学习成就的启发,DeepMind 的研究人员对多智能体强化学习(multiagent reinforcement learning,MARL)重新燃起了兴趣 [88, 16, 97]。在 MARL 中,多个智能体在一个环境中同时互动和学习,可能是围棋和扑克中的竞争模式,学习如何交流的合作模式,也可能是二者皆有。

MARL 最简单的形式是独立强化学习(independent RL,InRL),每个学习器不理会其他智能体,将所有互动作为自己(「局部」)环境的一部分。这些局部环境是非稳态和非马尔可夫的 [55],导致在很多算法中缺乏收敛保证,除此之外,研究者还发现这些策略会与其他智能体的策略产生过拟合,从而无法实现很好的泛化效果。强化学习社区对环境过拟合的研究还很少 [100, 67],但是 DeepMind 的研究人员认为这在多智能体设置中尤其重要,该设置中一个智能体必须根据观察到的其他智能体的行为动态地作出反应。经典的技术是收集或逼近额外信息如联合值(joint value)[60, 18, 28, 54]、使用适应性学习率 [12]、调整更新频率 [47, 79],或对其他智能体的动作进行在线动态回应 [61, 49]。但是,近期研究中出现了一些特例 [21, 78],他们关注(重复)矩阵博弈(matrix game)和/或完全可观察的环境。


有多个建议能够在多智能体设置中处理部分可观测环境。当模型完全可知,且设定是与两名玩家完全对抗时,可以使用策略迭代方法,该方法基于使用专家级抽象(expert abstraction)可以进行很好扩展的遗憾最小化(regret minimization)[26, 14, 45, 46]。近日,研究者将这些方法和深度学习结合起来,创建了无限下注德州扑克专家级 AI 系统 DeepStack [72]。大量研究在通用设置下,通过扩展信念状态和来自 POMDP 的贝叶斯更新 [27],处理去中心化合作问题 [74, 77]。这些模型具备较强的表达能力,得出的算法也比较复杂。在实践中,由于难解性,研究者通常使用近似式(approximate form),通过采样或利用结构来确保模型保持优秀性能 [40, 2, 66]。


在这篇论文中,DeepMind 的研究者介绍了一种新的指标,用于量化独立学习器学得策略的关联效果,并展示了过拟合问题的严重性。这些协调问题在完全可观测的环境中已经得到充分研究 [68]:DeepMind 的研究者在部分可观测的混合合作/竞争设置中观察到了类似问题,并证明其严重性随着环境可观测的程度降低而增加。DeepMind 的研究者提出一种基于经济推理(economic reasoning)的新型算法 [80],该算法使用(i)深度强化学习来计算对策略分布的最佳回应,(ii)博弈论实证分析(empirical game-theoretic analysis)来计算新的元策略分布。研究者为去中心化执行进行中心化训练:策略以分离的神经网络的形式呈现,智能体之间没有梯度共享或架构共享。基本形式使用中心化支付矩阵(payoff table),但在需要更少空间的分布式、非中心化形式中该矩阵被移除。


图 1:Double Oracle 算法。


DeepMind 的研究人员展示了他们的主要概念性算法:策略空间回应 oracle(policy-space response oracles,PSRO)。该算法是 Double Oracle 算法的自然泛化,其中元博弈是策略而非动作。它还是 Fictitious Self-Play 的泛化 [38, 39]。与之前的研究不同,该算法可以插入任何元求解器以计算新的元策略。在实践中,无需任何域知识,使用参数化策略(函数逼近器,function approximator)泛化至状态空间。



算法



图 4:(a)两玩家 Leduc 扑克中 DCH 参数在 NashConv 上的效果。左:解耦 PRD;中:解耦 RM;右:Exp3。(b)MAUC 对抗 cfr500 的渗透图。


DeepMind 也展望了新方法的未来应用方向,研究人员正在考虑保持基于策略差异损失惩罚的差异性,一般响应图拓扑,实时语言游戏和 RTS 游戏等环境,以及其他需要进行预测的架构,如对立建模、在辅助任务中进行未来状态估测。DeepMind 还希望研究快速在线适应及其与计算心智理论的关系,以及对使用继任者特征的类似策略进行泛化(迁移)的 oracle。


论文:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning




论文链接:http://ift.tt/2ipU0jc


要想实现通用智能,智能体必须学习如何在共享环境中与他人进行互动:这就是多智能体强化学习(multiagent reinforcement learning,MARL)遇到的挑战。最简单的形式是独立强化学习(independent reinforcement learning,InRL),每个智能体将自己的经验作为(非稳态)环境的一部分。这篇论文中,我们首先观察到,使用 InRL 学得的策略能够在训练过程中与其他智能体的策略产生过拟合,但在执行过程中无法实现充分的泛化。我们引入了一种新的指标:共策略关联(joint-policy correlation),对该效果进行量化。我们介绍了一种用于通用 MARL 的算法,该算法基于深度强化学习生成的多种策略的几乎最佳回应,还进行博弈论实证分析来计算策略选择的元策略。该算法是之前算法的泛化,如 InRL、iterated best response、double oracle 和 fictitious play(虚拟对局)。之后,我们展示了一种可扩展的实现,使用解耦元求解器(meta-solver)减少内存需求。最后,我们在两种部分可观测的设置(gridworld coordination games 和扑克)种展示了该策略的通用性。

]]> 原文: http://ift.tt/2lPjDin
RSS Feed

机器知心

IFTTT

独家专访蚂蚁金服旗下蚂蚁佐罗CEO Toby Rush,揭秘识别同卵多胞胎背后的技术力量

撰文 | 高静宜

编辑 | 微胖


11 月 3 日,iPhone X 全球同步开售,不过在此之前,第一批入手 iPhone X 测评机的媒体,已经掀起了一波用双胞胎测试 FaceID 识别功能的高潮。同一天,一家名为蚂蚁佐罗的公司发布全球首个眼纹识别技术,正式向精准识别同卵双胞胎这一世界级难题发起挑战。


同卵多胞胎虽然长相极端相似,不过每个人都有独一无二的眼纹特征。眼纹识别就是针对眼白上的血管排布进行识别,相较其他维度的生物识别技术,在误识率和精准率方面表现更为优秀。而由于眼纹识别技术研发的门槛高、挑战大,此前业内尚未出现成熟的相关解决方案。



蚂蚁佐罗在实验室成功识别出数对双胞胎,包括同卵双胞胎


在今年的阿里巴巴云栖大会上,蚂蚁金服正式宣布其生物识别团队成立独立科技平台 ZOLOZ,中文名为蚂蚁佐罗,定位金融级的人脸识别,旨在推动生物识别技术能力的普及。蚂蚁金服全球核身平台负责人 Toby Rush 出任公司 CEO 一职,蚂蚁金服生物识别技术负责人陈继东担任蚂蚁佐罗总经理。



生物识别机器人蚂蚁佐罗


「在数字时代,我们每天都需要向各种移动设备和在线服务来回答『你是谁』的问题,生物识别技术在解决『你是谁』的问题上具有得天独厚的优势。」蚂蚁佐罗 CEO Toby Rush 介绍道,「我们的愿景就是帮助用户在保障隐私和安全的情况下,通过自身独有的生物特征,更加简单、可靠、便捷地实现身份认证。」



蚂蚁佐罗 CEO Toby Rush


在这之前,Toby Rush 创办了 EyeVerify,这家专注于眼纹识别技术的美国创业公司,在 2016 年 9 月被蚂蚁金服高价收购。随后,Toby Rush 加入蚂蚁金服,成为蚂蚁金服全球核身平台负责人。


和绝大多数蚂蚁金服团队的成员一样,Toby Rush 也给自己取了花名——「闰土」,有别于一些调侃意味的花名,这个名字另有深意。


Toby 的家乡位于美国中部城市堪萨斯城,家里经营了一所农场。他认为闰土朴实、简单的乡下男孩形象,和自己的年幼经历十分相似,「这个名字能够提醒自己出身,时刻保持谦虚、低调的状态。」



Toby 向机器之心展示他的工牌,背景是他家位于堪萨斯城的农场,笑称工牌上面印着他的过去与现在。


明确在蚂蚁金服的「新身份」后,Toby 第一时间接受了机器之心专访,这也是他加入以来,首次接受媒体采访。Toby 向我们分享了自己在生物识别领域的探索中,对生物识别技术优势、研发创新的理解,以及蚂蚁金服在生物识别领域的布局。


加入蚂蚁金服


2016 年 9 月,您的公司 EyeVerify 被蚂蚁金服收购。能否介绍一下具体过程?您为什么选择加入蚂蚁金服这样一个中国公司?


2015 年,也就是正式完成收购的一年前,在支付宝项目上,EyeVerify 就以技术提供方的身份与蚂蚁金服展开了合作。从那时起,支付宝开始眼纹识别技术的研发。当时,我们非常看好这项技术的实际落地和应用前景。除了支付场景,阿里整个体系对这项技术的需求也非常大。考虑到合作伙伴的需求以及阿里自身的因素,我们最后决定组队研发眼纹识别技术。

 

阿里体系覆盖面非常广泛,不仅能够服务整个社会,也能为个体提供帮助。如何在数字世界中完成识别、交付信任、保障安全?这非常有趣。在未来十年内,阿里计划服务 20 亿消费者,能够帮助这么多消费者,是吸引我加入蚂蚁金服的重要原因之一。此外,阿里在印度尼西亚、马来西亚、越南、泰国等国家也开展了相关支付业务,有机会帮助到全球用户也让我非常兴奋。


您的职业履历非常丰富,曾在咨询公司就职,之后涉足移动、无线、传感器、成像等众多行业领域,分别在 2003 年和 2012 年创立了 Rush Tracking System 和 EyeVerify 两所公司。能否介绍一下您是如何一步步走向生物识别领域的?


大学期间,我学的是机械工程专业,大二期间,对软件开发产生了浓厚兴趣。在软件公司 SAT 工作时,我学习了 RFID(射频识别技术)相关知识,用 RFID 和移动设备搭建了一个工作流程的自动化平台。


在意识到 RFID 在工业仓库中应用前景后,我创立了 Rush Tracking System。这是一家专注于 RFID 等追踪技术的公司,产品之一是给仓库叉车配备摄像头传感器,根据所采集到的数据,软件会分析出叉车在仓库中所处的位置,进而完成清点存货清单、叉车驾驶员的调配等一系列任务。这也是我第一次接触计算机视觉技术。


在意识到计算机视觉技术的巨大应用潜力之后,我就把 Rush Tracking System 卖掉了。我找到许多计算机视觉领域的专家,和他们交流探讨。不久,我和一位堪萨斯大学的教授取得联系,他研究的方向正是眼纹识别技术,我们一起创立了 EyeVerify。


目前蚂蚁金服生物识别团队现状如何?团队之间协作如何?团队之间的融合给您带来了什么转变?


目前,中美两个团队合作开展研发,团队人员约 120 人左右。其中,中国团队约有 60-70 人,美国团队有 40-50 人。对我们来说,无论是文化的冲击还是思维的碰撞,都有挑战。有时,表达方式不同,理解彼此需要一个过程,这都是正常的现象。我们正在努力保持积极沟通,确保整个团队的研发进度。

 

就我个人而言,之前会把焦点放在眼纹识别技术上。蚂蚁金服现在做的是把人脸、声音、眼纹等识别技术整合在一起,搭建一个完整的身份核验平台,让识别更加准确。因此,加入蚂蚁金服后,我的研究范围变宽了。另外,无论是在资源、配置,还是市场、行业洞察等方面,对我来说,构建平台是全新的尝试。目前,我也正在努力学习新知识,包括中国文化、阿里集团的文化、以及印度尼西亚等各国文化。这个过程非常有趣,对我也很有帮助。


团队在近期的研究重点是什么?

 

首先,我们会继续推动刚刚在肯德基上线的「刷脸支付」项目,这是我们生物识别技术非常重要的一个落地应用。其次,会进一步探索如何让用户在说话、触摸、行动过程中,自然完成身份校验。另外,隐私与安全问题是我们长期关注的领域,也会持续研究这些问题。


生物识别技术的优势与落地场景


生物识别技术已经逐渐渗透到越来越多的落地场景中,最近发布的 iPhone X 就采用了人脸识别技术完成屏幕的解锁,时下火热的智能音箱也在尝试融入声纹识别技术满足用户的需求。您如何看待生物识别技术的应用潜力?


这正是技术让人感到兴奋的地方。本质上讲,任何应用场景中,生物识别技术都是在回答「你是谁」的问题。无论使用支付宝支付,还是在肯德基体验刷脸支付,抑或刷脸解锁屏幕,系统首先要知道你到底是谁。这也是金融服务中最重要也是最亟待解决的问题。这个问题也始终贯穿在各种不同的应用案例中。


我认为,生物识别技术在解决「你是谁」的问题上具有得天独厚的优势。无论是进入账户完成支付,还是获得权限唤醒家里的台灯,只要涉及解决「你是谁」的问题,生物识别技术都可以发挥潜力。


相较于传统的身份校验方法,生物识别技术的优势与价值何在?


易用性和安全性两个方面的优势,使生物识别技术成为身份核验领域一个顺其自然的选择。


为了更好地回答问题,我们先回顾一下在现阶段大范围使用于金融领域的身份核验方法——密码。一方面,密码易被复制,易产生数据桥梁,存在安全性隐患;另一方面,密码的使用体验并不理想,输入密码的过程也不简单、便捷,很多人并不喜欢这样验证方式。

 

生物识别技术的优点在于既能够简化使用过程,提升用户体验,又可以解决安全性问题。只需「做自己」,自然刷脸、说话、触摸,即可完成身份核验。在安全性方面,生物识别技术表现也不错,目前已经有相应的活体检测等防攻击技术予以支持。


您怎样看待生物识别技术的准确率问题?

 

在部分场景下,验证的准确度要求非常高。比如,在银行应用场景中,生物识别技术必须拥有非常高的置信度及准确率,好让孩子没有机会登陆大人手机中的支付 APP。但在某些场景下,人们没那么关心这项技术识别的准确度,也不需要极高的准确度。这类场景下,我们会灵活调整识别准确度。

 

简言之,在身份验证需求较强的场景下,我们会采用人脸识别、指纹识别、声纹识别等技术,极力保证识别的准确率及稳定性。在一些娱乐性质强的识别场景下,身份验证的需求相对较弱,风险级别较低,我们会做出相应的调整。总之,我们会根据不同应用场景下的用户体验及需求来实现平衡,重点在于谁在发问「你是谁」。


您如何看待人脸识别、指纹识别、眼纹识别、声纹识别等常见生物识别技术所适合的应用场景?


我认为,无论哪种生物识别技术,都是在做同一件事:回答「你是谁」这个问题。区别仅仅在于,如何根据不同的场景和用户需求选择合适的技术。不同场景下,用户会使用不同的沟通方式。在一间过于嘈杂的房间里,人们可能会选择微信打字的沟通方式;如果房间比较安静,人们会直接面对面交流。


当然,除了考虑用户的易用性,由于一些技术的识别准确率高于其他,不同时间、地点,某种识别技术的性能可能会有明显优势,所以,在具体场景下选取特定的生物识别技术时,也要考虑每种技术的性能。


其实,身处数字世界的我们会发现,摄像头、麦克风无处不在。无论是人脸识别还是眼纹识别都是非接触式识别,只需要一个简单的摄像头就能获取带有面部及眼睛特征的图片。但是,相较于人脸识别,眼纹识别需要质量和分辨率更高的图片,对摄像头也有一定要求。因为只有这样,才能抓取到眼静脉的细微特征,完成后续算法训练。人脸的图片没有这么高的要求,所以,目前人脸识别技术的应用更加广泛。不过,现在摄像头更新换代的速度非常快。每次新手机推出时,也会伴随更高质量的摄像头,所以,未来,基于计算机视觉的生物识别技术会发挥更大潜力。另外,将人脸与眼纹识别技术相结合的可行性,也让我们非常兴奋。


双因子、多因子结合的识别方式会成为未来验证的主流吗?

 

会成为主流。多种识别技术相结合,可以为核验身份提供更多的依据,不仅能提升识别的准确率,还能进一步提升安全性。

例如,人脸结合眼纹识别就为用户提供更加丰富的使用体验,也能进入更多有趣的场景。不过,如何选取识别手段,还需结合实际应用案例。我们也正在尝试挑战这一领域的极限,未来六个月、一年内,会完成相关的技术落地。


生物识别技术的研究与挑战


现阶段生物识别技术的研究进展和重点研发方向是什么?

 

目前,我们正在努力让技术回答「你是谁」变得更加简单。在实际应用中,只有把用户与服务合理地连结起来,生物识别技术才能起作用。


我们希望用户可以「做自己」,在自然地看、说、碰这些动作过程中,获取有价值的图像、声音等数据,转化信息进而完成身份验证与比对。希望未来我们的技术能够实现这一目标。


在生物识别技术的研发过程中面临哪些挑战?如何攻克这些问题?


在我看来,主要面临两方面挑战。一,为技术赋能进而满足用户的需求;二,解决安全隐私问题。

 

首先,能够在特定场景中展现出价值,为用户提供合适服务,技术才有意义。很多研发人员在实现技术突破或是开发了一项新技术时,都会非常兴奋。不过,有时候,这些技术对实际生活改善并无多大帮助。无论是人脸识别、声纹识别、指纹识别还是眼纹识别技术,都要能够在实际应用中为用户提供价值。


其次,只注重新技术研发,不考虑保护隐私保护、解决安全隐患,这项技术肯定会陷入麻烦。金融级场景对安全性的要求非常高,隐私牵涉所有应用场景。我们的优势之一就是,可以为用户构建一个保护隐私的安全屏障。


活体检测是身份校验中十分重要的一个部分,也是安全保障不可或缺的关键环节。蚂蚁金服拥有全世界最好的活体检测技术。通过与银行紧密合作,我们发现最困扰他们的问题是视频或手机屏幕翻拍进行的攻击。一旦攻击成功,不仅用户损失金钱,银行名誉、信誉也会受损。这才是最严重的问题。


我们在活体检测技术上已深耕多年,也在持续优化完善中。每天我们都会面临大量攻击,在早期阶段,大约一年、两年前,我们碰到过防御失败的情况。我们也会针对算法进行优化迭代。如今一些不法分子尝试用新的技术进行攻击,如 3D 打印、面具等,我们也在相应地升级防御手段。


您如何看待中美在生物识别技术领域存在的差异?

 

中国在技术整合的方面具有优势,美国倾向于深挖每项具体技术。


例如,阿里这样的大型互联网公司会把技术整合进平台中,在许多不同场景中为用户提供服务。区别可能在于技术应用率,中国会把技术应用于食物配送、银行保险等更广泛的场景中,推进速度比美国公司更快。


]]> 原文: http://ift.tt/2zhyuqY
RSS Feed

机器知心

IFTTT

博士生辍学教员罢课,AI业界与学界争抢人才无异于杀鸡取卵?

来源 | 卫报

作者 | Ian Sample

编译 | 陈韵竹 王宇欣 王艺


我们来探讨一下关于 PhD 学生大量流失的问题。


新学年初始,在英国顶尖学校帝国理工大学的一间教室内,一位资深教授正对一名学生的缺席感到不解。这名学生已经在她的实验室工作三年,还剩下一个学年即可完成学业,但他却不再进实验室工作了。


最终当她联系到这名学生时,该学生已经决定接受苹果公司六位数的薪资,辍学了。


帝国理工大学情感与行为计算专业的教授 Maja Pantic 表示:「他得到了这样一笔巨款,以至于马上停止手头一切工作离开了实验室。简直不敢相信,苹果公司开出的条件比我们高五倍,我们根本没有能力与之竞争。」


这样的事情绝非个例。在全美,私营公司从学术界吸引有才华的计算机科学家,纷纷开出让人难以拒绝的条件。根据卫报对英国顶级研究型大学的调查,科技公司正在以惊人的速度招聘人工智能专家,而这一行为导致的人才流失问题严重打击了研究与教学进程。一位在大学任职的高级管理人员警告说,目前正在流失的学者们普遍手下带有学生,而且这些学者也是研究项目的中坚力量。


人才流失问题不仅对学术界产生了影响。Pantic 表示,大多数顶尖的 AI 研究人员进入的是少数几家公司,这意味着社会无法共享其技能和经验。「这是一个问题。只有将创新扩散开,而非集中在少数几家公司中,才能减轻人工智能可能带来的巨大的破坏和负面影响。」


她还担心,大型科技公司的这一举动将使得 AI 人才的薪资与其他岗位的薪资拉开巨大的差距。除了让公司缴纳税款之外,Pantic 还表示,政府可能不得不考虑设置工资上限。一般来说,北欧国家会采用工资上限策略对公司薪酬进行制约。


许多优秀的研究人员转向谷歌,亚马逊,Facebook 和苹果。Pantic 说:「令人担忧的是学术界的相关舆论已经被资本控制。因为如果公司不能足额交税,对政府不利。政府没有足够的资金来发展教育事业,或投资学术界。所以,这种情况会成为一个恶性循环。」


而当另一位帝国理工的研究人员 Murray Shanahan 拿到 DeepMind 的 offer 时,却非常犹豫。他看到了加入公司后的诸多利处,能够在没有学术任务的情况下继续工作,他将有机会获得最好的的计算资源,而且他会和这个领域的一些顶尖人物共事。但尽管条件如此优越,Shanahan 还是难以做出抉择。



Murray Shanahan


他说:「当前技术招聘狂潮对学术界的潜在影响是困扰我的问题之一。」Shanahan 决定争取一个折中的位置,让他能够同时在两个阵营中站稳脚跟:在成为 DeepMind 高级科学家的同时,也在帝国理工也占有一席之地。


对那些具有专业技能的人而言,招聘狂潮的好处是显而易见的。科技公司的大量投资意味着人工智能领域的工作机会要比专业人才多得多。为了招聘最优秀的人才,公司提供高薪、性能强大的计算设备、以及令人兴奋的技术挑战,并而加入科技公司,研究人员的技术可能会影响到数十亿人。


过去,花旗银行曾雇佣出色的数学家,物理学家和计算机科学家。现在,这些人很可能在人工智能方面接受培训后,加入科技公司。剑桥大学信息工程学教授兼 Uber 首席科学家 Zoubin Ghahramani 表示「科技产业中大量的机会使得花旗银行的工作显得乏味,而且相比较而言薪酬也很低。不论是从物质角度还是兴趣角度出发,前往科技公司工作都是让人很难拒绝的机会。」


Ghahramani 今年三月宣布将要离开剑桥大学前往 Uber 任职。现在他每月有一周的时间待在 Uber 旧金山的办公室。明年夏天,他将全职在旧金山工作。除了工资上的差异,他还列出了许多学者被业界吸引而从大学离职的原因。比如,大学的日常工作往往伴随着许多繁复的行政事务:授课、批改作业、招收学生、而且还要不停地寻找赞助。但是在工业界,杰出的雇员只需要专心于自己的研究就好。


除此之外,人才不断从大学流失的原因还有很多。公司对人工智能人才的渴望源自机器学习技术的发展,这是一种从数据中找出有用特征的算法。为了更好地提取特征,当下的大部分人工智能算法都需要大量数据的支撑,并且需要大量的计算资源。若没有校企合作,大学很难在数据以及计算能力方面与科技巨头们竞争。为了打破这一僵局,学校及科研机构另辟蹊径,例如构造基于小数据的学习算法。



Zoubin Ghahramani


去年,在 Uber 收购了 Ghahramani 的人工智能初创公司 Geometric Intelligence 之后,他就开始在 Uber 兼职工作。作为首席科学家,他将负责监督机器学习算法在理解城市如何运转以及人类围绕城市的移动方式上的应用。Uber 研究这一技术的最终目标是使提供服务的车辆数目与需求相匹配。「我感到最有意思的是,在 Uber,我们是在一个真实存在的城市环境下完成机器学习。我们正在尝试优化人们的移动以及与城市相关的一切,」他说道。


Ghahramani 并没有看到工业界对人工智能研究员的需求有任何趋于饱和的迹象。「如今工业界对于人工智能人才的需求仍然很大,目前还没有衰弱的迹象,」他说。「大学不得不培养更多的专业人员来弥补这个缺口,如果讲师和博士后等人员持续被工业界所吸引,这对大学来说是个不小的挑战。这就如同杀鸡取卵一般。各大公司开始意识到这个问题,一些科技巨头也已经以资助讲座、提供资金等方式回馈大学。」


Steven Turner 去年加入了位于剑桥的亚马逊网络服务部门(Amazon Web Services)。他帮助公司搭建了亚马逊特有风格的「推荐引擎」,并在用户服务中加入图片识别、计算机语音和自动语音聊天等技术。他合作的一家金融机构现在正在利用这些技术回答一些简单的问题,比如客户抵押贷款的利率等,从而咨询人员可以将更多精力放在更复杂的问题的咨询上面。


在学术界,他看到各个院系为了继续研究进程、挽留人才而不得不为了资金而相互竞争。他离开的最主要的原因是他更希望研究现实世界的问题而不是理论化的概念。亚马逊的企业文化要比学术界更有生机。在大学,Turner 发现作为一个博士研究生常常会被孤立,即使他的导师非常有才华,这种情况也是时有发生。Turner 告诉 Guardian,「我个人认为大学应该更多关注其文化和社会互动,保证研究者们不会有被孤立的感觉,这样才能保证大学对人才有足够的吸引力」。他表示,大学同样应该关注研究员们的职业发展,给予其足够的自由接触额外的训练、和商学院进行合作,来扩展研究员们的知识。


Ghahramani 相信美国大学对于研究员们持有双职位这个问题会有更加灵活的应对策略。「大学需要对给予知识型人才更多的自由。针对业界世界领先的人工智能实验室想要挖角的博士研究生,学校应当有更灵活的策略。我们需要直面这些问题。转变更加灵活的大学将会因此受益。」他说道。


]]> 原文: http://ift.tt/2zhwdfq
RSS Feed

机器知心

IFTTT

阿里巴巴获机器视觉顶级会议 ACM MM2020 主办权

日前,国际计算机学会ACM(Association for Computing Machinery )正式宣布,阿里巴巴iDST副院长、IEEE院士华先胜博士成为 2020年ACM Multimedia(简称ACM MM)大会主席,并由阿里巴巴与意大利佩鲁贾大学和香港中文大学共同举办ACM MM 2020。阿里巴巴由此成为首个获得ACM MM主办权的中国企业。


ACM是世界上最大的计算机领域专业性学术组织,其评选的图灵奖(A.M. Turing Award)被公认为世界计算机领域的诺贝尔奖。而ACM MM被认为是多媒体技术领域奥运级别的顶级盛会,各类机构都将在会议上分享、交流最新研究成果。




华先胜是视觉识别和搜索领域的国际级权威学者,曾获选国际电气与电子工程协会院士(IEEE Fellow)、美国计算机协会ACM2015年度杰出科学家、MIT TR35大奖(全球35位35岁以下的杰出青年创新人物)等荣誉,也曾担任ACM Multimedia大会的程序委员会主席。


在阿里巴巴,华先胜担任iDST副院长的职位。他的团队成功将机器视觉技术应用到了阿里云ET城市大脑中。在杭州,城市大脑可以实现交通事故实时发现、两客一危车辆全程监管、城市搜索等功能。杭州官方披露的数据显示,城市大脑在主城区对交通事件日均报警数500次以上,准确率达92%。从全球来看,能够实现城市级的视频实时分析这是绝无仅有的。


华先胜当选大会主席并获得主办权,显示了ACM对其本人以及阿里巴巴在机器智能领域贡献的认可。刚刚结束的ACM MM会议上,阿里巴巴iDST有三篇城市大脑相关论文入选,并且取得了大规模视频分类比赛LSVC的全球冠军。


评选现场,华先胜向评委陈述时表示,以阿里巴巴为代表的中国企业已经成为全球机器智能技术创新的源头,我们希望在ACM MM 2020会议上,让世界看到更多中国力量。


近两年来,阿里巴巴正在不断加大技术投入,寻求在基础研究和突破性技术方面的进展。不久前,马云宣布成立全球性研究机构"达摩院",未来三年内投入1000亿人民币进行技术研发。研究机构PwC发布的报告显示,阿里巴巴今年研发投入预计达25亿美元,居中国企业之首。

 


]]> 原文: http://ift.tt/2lIMBQW
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...