2018年1月7日星期日

刚刚,英伟达发布最强无人车AI芯片,以及一系列自动驾驶新产品

夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI

英伟达再次带来新"核弹"。

在刚刚结束的英伟达发布会上,黄仁勋正式发布了DRIVE Xavier,这是一款为无人车准备的AI超级计算芯片,也是有史以来最复杂、最大的SoC。

Drive Xavier的面积达到350mm²,内建90亿个晶体管,它支持每秒30万亿次运算,功率只有30瓦,能效比上一代架构高了15倍。为了研发DRIVE Xavier,英伟达投入了2000个工程师,干了四年,研发费用达到20亿美元。

Xavier包括一个定制的8核CPU、一个新的512核Volta GPU、一个新的深度学习加速器、一个全新的计算机视觉加速器以及一个全新的8K HDR视频处理器。

DRIVE Xavier将在今年第一季度发货。

此外,老黄也宣布百度和德国的ZF都将在无人车上采用DRIVE Xavier。"每一辆制造出来的汽车都需要与中国兼容,因为它是世界上最大的市场。每辆使用DRIVE Xavier和DRIVE堆栈的汽车,都可以在中国运营"老黄说。

这款SoC,是英伟达Drive Pegasus AI计算平台的关键组成部分。一个Pegasus有两块Xavier,和两个英伟达新GPU,运算能力达到每秒320万亿次,功耗仅需400瓦。一两块Pegasus,就可以提供L5全自动驾驶汽车所需的运算量。

也就是说一块电路板,取代了整个超级计算机。

英伟达还宣布和Aurora、Uber在无人车方面展开合作。

除了用来让车自主行动的高性能芯片,英伟达还发布了一款AI SDK平台:Drive IX,让开发者能更简单地为汽车增加AI能力。

它能够监测车内司机的注视情况,防止驾驶时分心或瞌睡,也具备周围环境感知、语音识别、姿势识别等功能,还能提示有骑自行车的人经过。

另外,他们还发布了Drive AR软件,这是一款车内AR平台。英伟达认为,5年内我们将在汽车里用上AR,在汽车自动驾驶的时候,可以在车里用AR向乘客展示汽车所看到的世界。

Drive IX和Drive AR都是基于Xavier运行的。

以下是刚刚结束的英伟达发布会全程:

当地时间晚8点,发布会以一辆车的独白短片开始,她说:"I am AI"。为短片配乐的,又是在英伟达发布会上出现数次的AI作曲公司Aiva Technologies。

短片过后,黄仁勋上台喊出"新年好"。发布会的Keynote演讲也正式开场。

英伟达的GPU现在处在游戏、AI、自动驾驶汽车三大行业的中心,这也正是英伟达的三大商业驱动力。而AI,是这三大驱动力增长最快的一股。

老黄还说:"我们终于能将深度学习和AI用到所有挑战中最难的那一部分:无人车。我们进展神速,人的移动、货物的移动,带来了10万亿美元的市场。"

他也相信PC游戏和VR,仍将继续繁荣。

短短一两年前,英伟达还被视为一家"游戏公司",现在,他们有着更广的业务范围,但在游戏领域并没有止步。他们要在CES上发布10款新的台式机游戏平台,三款新游戏本。另外,他们还要推出三款新显示器,这对于英伟达来说是一个全新的领域。

游戏之后的话题,是英伟达的AI平台。

老黄展示了已经发布的Volta架构处理器,搭载着运算速度达到125 TFLOPS(每秒万亿次浮点运算)的tensor core,用于处理AI工作负载。

随后,他还谈到了英伟达的GPU云和他们的合作伙伴,比如亚马逊AWS、阿里巴巴、谷歌云等等。

既然讲AI,当然少不了深度学习计算机DGX和工作站DGX Station,也少不了3000美元的Titan V计算卡。

老黄生动形象地展示了AI的种种能力,或者说,英伟达GPU所带来的超强计算力。8个Tesla V100芯片,每秒可以识别7012张图片:

还能打破真假之间的界限,生成不存在的人脸:

AI创造的乐曲,能配合发布会开头的视频:

AI作曲来自量子位00:0000:35

老黄说,英伟达要赋能任何地方的任何人,让他们拥有解决超级难题的能力。

说完AI,就是自动驾驶。

离发布会还有30多分钟的时候,冲进会场占座的TechCrunch说,前7排座位统统预留给了"汽车合作伙伴"。

发布会的开场视频也暗示着,自动驾驶是今天的重头戏。

与其他领域稍有不同,为自动驾驶汽车打造芯片比世界上任何事情都更复杂,性命攸关,它不能出问题。

虽说难,这次发布会上,英伟达还是推出了一款自动驾驶新品:Drive Xavier。老黄说,这是世界上最大的SoC(片上系统),为了打造他,2000多名工程师辛苦了四年,消耗了20亿美元的研发成本。

这款SoC基于英伟达Volta架构,包含90亿个晶体管、一个8核CPU、一个512核Volta GPU。Xavier能加速深度学习、计算机视觉和8k视频处理的新部件。

它支持每秒30万亿次运算,功率只有30瓦,能效比上一代架构高了15倍。

这款SoC,是英伟达Drive Pegasus AI计算平台的关键组成部分。一个Pegasus有两块Xavier,和两个英伟达新GPU,运算能力达到每秒320万亿次。一两块Pegasus,就可以提供L5全自动驾驶汽车所需的运算量。

随后,老黄还宣布了两家新合作伙伴:一家是前Google自动驾驶负责人Chris Urmson创办的Aurora,另一家是Uber。

根据英伟达官方数据,现在已经有25家公司在借助英伟达的技术来开发全自动驾驶汽车,

Xavier本季度就将发货,而Pegasus将在2018年中发货。

对于汽车来说,最重要的安全。因此,作为一款用在汽车上的SoC,Xavier有不少冗余部件,当某些部件出现问题时,整个系统还能正常工作。

另外,英伟达还为此开发了"我们所做过的最复杂的模拟环境"Autosim,可以在VR环境中测试自动驾驶硬件。

据老黄说,同样对安全有极高要求的航空行业,也在寻求与英伟达合作。

除了用来让车自主行动的高性能芯片,英伟达还发布了一款AI SDK平台:Drive IX,让开发者能更简单地为汽车增加AI能力。

它能够监测车内司机的注视情况,防止驾驶时分心或瞌睡,也具备周围环境感知、语音识别、姿势识别等功能,还能提示有骑自行车的人经过。

另外,他们还发布了Drive AR软件,这是一款车内AR平台。英伟达认为,5年内我们将在汽车里用上AR,在汽车自动驾驶的时候,可以在车里用AR向乘客展示汽车所看到的世界。

Drive IX和Drive AR都是基于Xavier运行的。

最后,One More Thing来了。

这个 One More Thing不是新品、不是硬件,而是又一个新的合作伙伴:大众汽车。

大众的新款面包车I.D. Buzz在屏幕上显示,CEO Herbert Diess也出现在台上。

大众的新款面包车I.D. Buzz在屏幕上显示,CEO Herbert Diess也出现在台上。一阵寒暄,追忆完往事,老黄为Diess送上了一份惊喜大礼:I.D. Buzz的虚拟现实版:

英伟达与大众的合作,主要关于Drive IX。老黄说:未来几年内,每一辆新车都将会配备 AI 助手,以实现语音、动作、面部识别、以 及增强现实的应用。大众与 NVIDIA DRIVE IX 技术的合力将使其成为现实。我们正在联手创造迄今 为止最安全、最舒适、且方便每个人使用的新一代汽车。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2CPjfHZ
RSS Feed

RSS5

IFTTT

通过方差分析详解最流行的Xavier权重初始化方法

本文假定各位读者了解一些神经网络的基础,包括一些基本的前向与反向传播的表达式。本文很大一部分是进行基础的代数操作,只有少量的基本统计数据。如果读者希望先复习一点神经网络相关的知识,可以阅读以下机器之心曾发过的基础教程。本文尝试用 Glorot 和 Bengio 在他们论文中使用的推导以探讨深度神经网络中的权重初始化问题,并更好地说明为什么他们的方法解决了神经网络面临的训练问题。


梯度消失问题


起初,阻碍深度神经网络训练效率的最大问题之一就是极端的梯度情况。如果我们了解最初广泛作为神经网络激活函数的 Sigmoid 函数图像,很显然在函数的上下界附近梯度趋近于 0、激活值趋近于 0 或 1。但激活值处于这些极端区域时,我们称神经元已经饱和。在训练深度神经网络中,最后一个隐藏层往往会快速饱和至 0,所以随着梯度趋向于 0,前一层的反向梯度将会变得更小。因为极小的梯度无法给优化算法提供必要的优化信息,所以前面的隐藏层权重基本得不到更新。这显然是一个大问题,早期的隐藏层应该需要识别数据集中的局部特征,因此后续的层级才能用来在更高的抽象层次上构建更复杂的特征。如果前面层级的梯度基本影响不到权重的更新,那么模型将学不到任何信息。


在以下 Sigmoid 激活函数(蓝线)和它的导数(红线)中,我们可以看到饱和的区域为浅红色的区域。该区域令 Sigmoid 函数的导数接近为 0,且不能提供有效的优化信息。



Glorot 和 Bengio


在 Xavier Glorot 和 Yoshua Bengio 2010 年的论文 Understanding the difficulty of training deep feedforward neural networks 中,他们从理论上探讨了权重初始化对梯度消失的影响。该论文第一部分比较了激活函数,并解释了常用的 Sigmoid 函数为何对饱和问题如此敏感。他们还表示双曲正切函数和 softsign(x/(1+|x|)) 激活函数在这方面有更好的表现。


该论文的第二部分考虑了全连接网络的权重初始化问题,为从均匀分布中采样初始化权重提供了理论性分析。该分析的直观性解释可以分为两部分,首先对于前向传播,我们需要确保所有层的激活值方差近似相等,因此每一个训练样本传播经过网络的信息才能保持平滑的属性。同样对于反向传播,每层梯度保持近似的方差将允许信息平滑地反向流动以更新权重。近似方差的梯度同样确保误差数据能反馈到所有层级,因此它是整个训练过程中的关键。


为了形式化这些概念,首先我们必须定义各个符号与表达式的意义:


  • a^L 为第 L 层的激活值向量,它的维度为 n_L × 1,其中 n_L 为第 L 层单元数。
  • W^L 为第 L 层的权重矩阵,它的维度为 n_L × n_L-1,其中每一个元素 W_jk 表示前一层第 j 个神经元连接到后一层第 k 个神经元的权重。
  • b^L 表示第 L 层的偏置项向量,它的维度和 a^L 相同。
  • z^L 表示第 L 层激活函数的加权输入向量,即 z^L = W^L × a^L-1 + b^L。
  • C 为我们尝试优化的损失函数。Glorot 和 Bengio 使用条件对数似然函数−logP(y|x) 作为损失函数,但该函数的具体表达式在本文并不重要。
  • σ 为激活函数,因此 a^L = σ(z^L),其中该函数应用到输入向量的每一个元素。
  • n_L 为第 L 层的神经元数量。
  • x 为神经网络的输入向量。
  • δ^L=δC/δz^L 为损失函数对第 L 层加权输入向量的梯度,同样也成为误差方向。


下面的分析适用于层级数为 d 的全连接神经网络,且具有在零点为单位梯度的对称激活函数。偏置项初始化为 0,且在初始阶段激活函数近似表达为函数 f(x) = x。


我们假设权重、激活值、加权输入、网络的原始输入和梯度都服从独立分布,它们的参数都仅取决于所需要考虑的层级。在这样的假设下,第 L 层权重的方差可以表示为 Var[W^L],其它如激活值或梯度等变量的方差表达式同理可得。


前向传播


对于前向传播,我们希望所有层都保持激活值的输入和输出方差相等,因此激活值在网络的传递中不会放大或缩小。若考虑第 L 层第 j 个单元的加权输入 z_j:



在上面的化简过程中,我们需要使用定理「两个独立随机变量和的方差等于这两个变量方差的和」,且前面我们假设了加权的激活值与其它变量相互独立。此外,若假设当前层的权重独立于前一层的激活值,乘积的方差可扩展等价于方差的乘积。两个独立随机变量乘积的方差等于方差的乘积还要加上对应的均值项,不过由于我们假设激活值与权重都服从均值为 0 的分布,因此均值项可以省略。


由于激活函数是对称的,因此输入为 0 的激活值为 0。此外,若假设零点的导数为 1,那么我们在初始化阶段就可以恒等地近似表达 σ 激活函数,其中偏置项为零,加权输入向量的期望同样为零。在这个假设下,a^L ≈ z^L,因此我们可以将前面的方程式简化表达为:



因此如果我们希望所有加权输入的方差相等,乘数项必须为 1,最简单的方法是确保 Var[W^m+1] = 1/n_m。同样对于所有层级 L,n_in 为输入到层级的单元数(输入端数),那么我们希望有:



反向传播


对于反向传播,我们梯度的方差在各个层级中都相等,所以梯度才不会出现消失或爆炸等问题。我们使用反向传播方程式作为我们的出发点:



与前向传播相似,我们假设初始阶段的梯度与权重是相互独立的,且使用前面解释的方差恒等式。此外,我们假设加权输入 z^L 的均值为 0,且在初始化阶段激活函数的导数σ′(z_j) 逼近为 1。为了确保在反向传播中保持一致的方差,我们服从约束条件 Var[W^m] = 1/n_m。对于层级 L 和层级输出单元数 n_out,该表达式可以写为:



结语


在一般条件下,一个层级的输入端和输出端数量并不会相等。因此作为一种权衡,Glorot 和 Bengio 建议使用输入端和输出端数量的均值,即提出了以下方程式:



如果从均匀分布采样,那么分布的区间可以选为 [-a, a],其中 a =(6/n_out + n_in)^0.5。其中特定项 6^0.5 来源于区间 [-a, a] 内均匀分布的方差 a^2/3。当然权重也可以从均值为 0、方差服从上述表达式的正态分布中采样。


在本论文之前,一般标准的初始化技术是从区间 [-1/n^0.5, 1/n^0.5] 内均匀分布中采样权重。这样会使权重之间的方差变为 Var[W^L] = 1/3n^L,把该方差代入我们用于反向传播的方程后,我们能发现在传递的过程中梯度会减小。大概每层会减小 1/3 左右,这个梯度消失的效果也可以在实验中证明。该论文发现新的初始化方法能确保梯度在各层之间保持相对稳定,且此初始化方法目前是大多数深度学习模型所采用的。


有意思的是,本论文假设了一个在零点有单位梯度的对称激活函数。但实际上,本论文的实验结果可以使用 tanh 激活函数表示,它同时满足这两个假设。


对于像 ReLU 等激活函数,它们也进行了必要的调整。由于 ReLU 激活函数在值域上有一半为零,所以可以通过加倍权重的方差进行补偿,这种启发式的方法与 He 等人的详细分析结果相匹配,即 Var[W^L] = 4/(n_out + n_in)。


logistic 激活函数


在前向传播的推导中,我们将激活函数近似地等价于初始化阶段中的单位函数。对于 logistic 激活函数,因为函数在零点的导数为 1/4、函数值为 0,所以我们可以等效计算为 x/4 + 1/2。我们在零点展开泰勒级数,并带入计算:



其余的步骤都是等价的,除了前面的因子 1/16。


在反向传播中有类似的过程,我们忽略了激活函数的导数,因为在前面的假设中导数为 0。如果我们插入修正值 1/4,那么我们同样可以得到因子 1/16。由于这个因子在两个传播过程都相同,那么我们可以将它添加到输入端数量和输出端数量以构建约束项:



以下是权重初始化的参数:



原文链接:http://ift.tt/2C4JJFY


]]> 原文: http://ift.tt/2Ffx2WS
RSS Feed

机器知心

IFTTT

英伟达CES2018发布全球首个自动驾驶处理器Drive Xavier

2018 年 1 月 9 日-12 日,最新一届的 CES 将在美国拉斯维加斯开幕。作为世界上最大、影响最为广泛的消费类电子技术年展,CES 可谓是全球最大的消费技术产业盛会。但今年的 CES 与往年不同的是,人工智能应用产品也纷纷亮相。在今天中午的新闻发布会上,英伟达 CEO 黄仁勋为我们介绍了英伟达的 GPU,发布了面向自动驾驶的处理器 Drive Xavier。


众所周知,深度学习是随着 GPU 技术的发展而兴起的,英伟达在这个过程中所扮演的角色不言而喻。所以在登上讲台不久,黄仁勋就从口袋中拿出了英伟达的 GPU,展示 GPU 做深度学习的强大之处,着重介绍了搭载 Tensor Core 结构的 Volta 芯片。



上图介绍了 2017 年英伟达建立的 AI 平台


2017 年可以说是英伟达重点发展 AI 平台的一年。在去年 9 月 26 日,英伟达 GTC 大会中国站上,黄仁勋就曾解读说英伟达发展战略之一是要打造面向未来的 AI 技术平台。所以我们能看到,2017 年英伟达在人工智能上做出了一系列动作,包括发布全新的 Volta 架构芯片、发布推理加速器平台 TensorRT 等。


英伟达发布 Drive Xavier


从 2017 年英伟达的 GTC 大会上,我们能明显意识到英伟达极其重视车载芯片。在今日的演讲中,黄仁勋表示自动驾驶将会变革汽车、卡车产业。在如此机遇下,英伟达发布了世界上第一款自动机器处理器 Drive Xavier。



Xavier 拥有超过 90 亿个晶体管,是迄今为止打造的最复杂的系统级芯片,凝聚着 2000 多名 NVIDIA 工程师为期四年的努力,研发投入高达 20 亿美元。

 

它基于了一个特别定制的 8 核 CPU、一个全新的 512 核 Volta GPU、一个全新深度学习 加速器、全新计算机视觉加速器、以及全新 8K HDR 视频处理器而打造。并且,借助 NVIDIA 统一架构,所有早前 NVIDIA DRIVE 软件开发工作都得以持续进行。

 

它的技术细节非常复杂,但总体来说:DRIVE Xavier 可提供更高的处理能力,运行功率 更低,每秒可运行 30 万亿次计算,功耗却仅为 30 瓦。能效比上一代架构高出 15 倍。


百度和 ZF 均采用英伟达的新产品 Drive Xavier。同时黄仁勋也宣布英伟达与 Aurora 合作建设自动驾驶汽车计算平台,与 Uber 联合打造自动驾驶 Uber 汽车。


]]> 原文: http://ift.tt/2EkJVxA
RSS Feed

机器知心

IFTTT

《经济学人》最新封面评下一个前沿技术:脑机接口正等待远见者的到来

编译 | 陈韵竹、张震、Edison Ke、王艺

来源 | 经济学人




脑机接口

这听起来像是科幻小说中才会出现的概念。


在日内瓦 Wyss 生物和神经工程中心里,实验所用的设备上闪烁着微光。一名实验技术人员从培养箱中取出一块孔板,每个孔中存有一小块来人类干细胞的脑组织,脑组织底部排有电极阵列。屏幕显示着电极正在提取的特征:放电神经元的特征峰谷波形。


这些脑组织已经脱离母体,我们却仍能看到信号的产生,实在是件怪事。神经元放电是生物智能的基础,这些电信号聚合在一起,获取记忆、引导动作、整理思想。就在你读这句话的时候,神经元正在你的大脑中放电:理解页面上的字母形状; 把这些形状变成音位,再把这些音位变成词汇;并给这些词赋予含义。


这样的信号交响乐真叫人眼花缭乱。成年人脑中神经元多达 850 亿个;其中,一个典型的神经元与其他神经元有 10000 个连接。人类正尝试解开这些神经元互相连接的方式,尽管这些研究正处于初期阶段,但是,一旦大脑的秘密被解开,令人瞩目的科研成果将纷至沓来。例如,通过解码神经活动,我们能够利用这些代码控制外部设备。


人脑与机器直接沟通,需要一个脑机接口(BCI)做通道。其实,脑机接口的使用历史可以被追溯至 2004 年,那一年,一个名为 BrainGate 的系统 被植入到 13 名瘫痪者的脑中。这个系统由布朗大学研发(其他一些科研院所也有类似的设备),名为犹他电极阵列的小电极阵列被植入到运动皮层(大脑用于管理运动的一部分)中。这些电极对神经元进行监测,如果被植入者在其意识中试图移动手或胳臂,神经元所释放的电信号将通过电线从人的颅骨中传送到解码器,从而被转换成各种各样的系统,例如帮助被植入着移动光标、控制肢体等。


BrainGate 成功地让一名中风瘫痪的妇女用机械臂喝了无需借助看护者帮助的第一口咖啡。另外,利用该系统,一名瘫痪者能以每分钟 8 个单词的速度打字。更神奇的是,BrainGate 甚至能使瘫痪的四肢重新动起来。今年,凯斯西储大学 Bob Kirsch 领导的一项研究在 Lancet 上发表。该研究人为地部署了 BrainGate 系统用于刺激瘫痪者手臂的肌肉。结果,在一次自行车事故中瘫痪的 William Kochevar 八年来第一次做到了自己进食。


大脑和机器之间的交互还以其他方式改变了生活。2014 巴西世界杯足球赛开幕式上,一名截瘫男子用意念控制机器人外骨骼「机械战甲」开球。最近的一项研究中,图宾根大学 Ujwal Chaudhary 和四名共同作者利用功能性近红外光谱技术(fNIRS)将红外光束射入大脑,并对四名因 ALS 完全无法活动的闭锁综合征患者提出「Yes or No」问题,患者在精神层面对这些问题进行了回答,科学家以可辨认的血氧合模式对患者的反应进行观察。


神经活动可以被刺激和记录。例如,人工耳蜗将声音转换成电信号,并将电信号传送到大脑中。又如,深度脑刺激利用电脉冲帮助帕金森患者控制行动,这种电脉冲通过植入电极的方式进行传递。这项技术也被用于治疗其他运动障碍和精神健康问题。硅谷的一家名为 NeuroPace 的公司通过监测大脑活动,寻找癫痫即将发作的迹象,并对大脑施加电刺激加以阻止。


显而易见,脑机接口也可以用于其他感官的输入输出。加州大学伯克利分校的研究人员解构了人类倾听对话时颞叶(人脑中负责处理听觉信息,也与记忆和情感有关的部分)的电活动;这些解构出来的模式对应着人们所听到的单词。而且,当人类想象听到某个单词时,大脑也会产生类似的信号。这一研究有可能为那些失语症患者(无法理解或表达语言的人)提供语音处理设备。


伯克利的研究人员还利用大脑中的血氧变化重建人们的观影片段,尽管影像有些模糊。这一技术的逆向工程能够被用作刺激盲人的视觉皮层,从而将图像投射到他们的大脑中。


脑机接口的巨大发展潜力和问题相伴而生。当下最先进的科学研究正采用动物实验。Howard Hughes 研究所、Allen 研究所和伦敦大学学院的研究人员开发了名为 Neuropixels 的硅探针,用于监测小鼠和大鼠多种脑区域细胞水平的活动。加州大学圣地亚哥分校的科学家已经建立了这样一个脑机接口,可以通过之前的神经活动预测斑马雀将会唱什么歌。加州理工学院的研究人员对猕猴视觉皮层细胞展开研究,主要研究它们如何编码包括肤色、眼距在内的 50 个不同人脸特征。因此,在给猴子展示人脸时,根据检测到的脑信号,研究人员能以惊人的准确率猜到猴子看到的是哪张人脸。但是,由于人脑更庞大、更复杂,加之政策监管方面的原因,对人类大脑进行科学研究非常困难。


即使脑机接口技术在人类方面有很多实验性的突破,它也很难转化为临床实践。连线杂志早在 2005 年就对当时新推出的 BrainGate 系统进行了一次非常轰动的报道。在该项技术发展的早期,一家名为 Cyberkinetics 的公司尝试将其商业化,但并未成功。此外,NeuroPace 花费了整整 20 年时间开发技术、与监管方进行谈判请求批准,但据其预计,今年将只有 500 名癫痫患者能够被植入该公司的电极并使用其系统。


时至今日,脑机接口技术仍需要专家操作。BrainGate 背后的关键人物之一,布朗大学的神经学家 Leigh Hochberg 教授称:「如果必须让一个神经工程学硕士站在患者旁边操作,这个技术就没由太大的使用价值。」只要电线穿过头骨和头皮,就会有感染的风险。植入物也可能在脑内产生些许位移,这可能损害脑内细胞,而这些细胞正是系统获取信号的来源。大脑对外来异物的免疫反应会在植入电极周围产生瘢痕(原理类似皮肤结痂后细胞分裂过多产生的伤疤),使系统效果变差。


而且,现有的植入物只能记录大脑信号的很小一部分。例如,BrainGate 团队所使用的犹他电极阵列可能只是从这 850 亿个神经元中挑出几百个观察放电动作。西北大学的 Ian Stevenson 和 Konrad Kording 在一篇发表于 2011 年的论文中表明,自 20 世纪 50 年代以来,可同时记录的神经元数量每 7 年翻一番(见图表)。这个速度与集成电路领域的摩尔定律相差甚远。要知道,集成电路的计算能力每两年就能翻一番。




事实上,正是因为神经技术很难走出实验室、走进临床实践,日内瓦的 Wyss 中心才得以存在。该中心负责人 John Donoghue 是 BrainGate 的拓荒者之一。他说,Wyss 中心是为那些有前景的想法而设计的,希望能帮助这些想法跨越若干「死亡之谷」。首先,这些想法要面临财务问题:投资回报期长、科技含量高,这就吓退了大多数投资者。其次,在研发更好的脑机接口过程中,团队需要拥有跨学科的专业知识以及保持复杂的接口项目处于正轨的管理技能。另外,神经科学本身还处于相对早期。Donoghue 博士说:「脑机接口的核心在于理解大脑的工作方式,但事实上我们并不理解。」


这种非凡成就和踌躇进展的奇特混合,如今有了一个新的组成部分:硅谷。2016 年 10 月,通过出售其支付公司 Braintree 获得巨款的企业家 Bryan Johnson 宣布投资 1 亿美元,在 Kernel 创立了一个旨在「读写神经编码」的公司。Johnson 认为,人工智能的兴起需要伴随着人类能力的同步升级。「难以想象,到 2050 年,人类会处于一个无需主动提升自己的世界。」他这样说道,并期待着人类能随心所欲地获得新技能,或者与他人心意相通。去年 2 月,Kernel 收购了 Kendall Research Systems,一家从事神经接口工作的麻省理工学院的衍生公司。


Kernel 认为,脑机接口技术是人类与人工智能协作的方式,以确保人类不会被人工智能征服。Kernal 并不是唯一持有这种想法的公司。2016 年,SpaceX 和特斯拉的老板 Elon Musk 创立了一家名为 Neuralink 的新公司,该公司正在努力创造各种新型植入体。他汇集了许多令人敬佩的联合创始人,并设定了一个目标,即在 2021 年前开发残疾人临床使用的脑机接口。据 Elon Musk 估算,为健全人设计的设备大约还需等待八到十年的时间。


Neuralink 并没有具体说明到底在做什么,但 Wait But Why 网站中的一篇长文章概述了 Elon Musk 的想法。在这篇文章中,他描述了人类之间彼此进行更快速沟通的必要性,同时提到人类与计算机沟通的必要性,否则人类将被人工智能遗弃在尘埃中。文章提到了一些非凡的可能性:从云端立刻汲取知识,或把来自某个人视网膜的图像直接输入到另一个人的视觉皮层;创造全新的感官能力,如红外视力、高频听力等; 最终,融合成为人机混合智能。


4 月份,Facebook 透露了一个创造「无声语言(silent speech)」接口的计划,引起业内不小的讨论。这一接口将允许人们直接利用意念每分钟输入 100 个单词。一个由 60 多名研究人员组成的小组正在开展这个项目,其小组成员来自 Facebook 内部和外部。一家独立的初创公司 Openwater 也在研究一种非侵入性的神经成像系统。其创始人 Mary Lou Jepsen 表示,该技术最终将能读懂人脑。


脑机接口专家正纷纷擦亮双眼,以迎接硅谷远见者的到来。他们说,神经科学正在进步中。一个有效的脑机接口需要许多学科的参与:材料科学、神经科学、机器学习、工程、设计等。要知道,临床试验和监管批准没有捷径可走。


在上述一切中,怀疑论者是对的。许多大肆宣传的雄心壮志看上去只是空想而已。不过,当下仍是脑机接口的关键时刻: 大量的金钱涌入这个领域,研究人员正在尝试多种方法。而 Elon Musk 呢,他尤其擅长将宏大的愿景(如殖民火星)和实际的成功(通过 SpaceX 恢复和重新发射火箭)结合在一起。


我们清楚地知道,「黑客帝国」并非咫尺之遥,但脑机接口技术可能迎来巨大进步。要做到这一点,最关键的是要找到一个更好的连接大脑的方式。


内脑智能


寻找更轻巧、更安全、更加智能的大脑植入方式。


在与脑机接口的神经科学家深入聊天后,他们经常会做一个关于运动场的类比。他们将大脑的神经活动与足球场人群制造的噪音进行类比。在球场外面,你可能会听到一些噪音,通过人们的叫喊声,就可以猜测队伍是否进球得分。如果你是在运动场上空的飞艇上,你可以看到是哪个队进球了,以及有可能知道是哪位球员进球了。而只有在球场里面,你才可以问某个球迷,进球的详情。


同样地,对大脑来说,只有近距离地接触脑活动才能够真正明白发生了什么事情。为了获得高分辨率的信号,目前只能通过打开头颅的方式,别无他法。一个可能的选择是在大脑皮层的表面放上电极,这被称为皮层脑电图。另外一种方式是如同 BrainGate 的犹他电极陈列一样,使用微电极网将电极嵌在大脑组织上。


人们能够以多么近的距离利用单个的神经元操作脑机接口,这是一个存在争议的话题。对于患有帕金森综合症导致运动能力失调的患者来说,医生会用意大利面一样粗的铅棒和很大的电极对大脑组织进行大范围的深度刺激,这种治疗方式一般被认为是有效的。Newcastle 大学的 Andrew Jackson 认为,皮层脑电图在实施过程中会选择一些神经元,这些神经元的活动只能用来解码一些简单的移动信号,如想要抓某些东西或者抬一下胳膊。


但想要产生手指移动这种更加细致的控制信号,则需要更高的精准度。「这是很微小的信号,许多神经元都紧密地聚集在一起,一起发出信号。」匹兹堡大学的 Andrew Schwartz 说到。将这些神经元聚集起来,会不可避免地导致细节的丧失。毕竟,在完成例如导航、面部识别等任务时,单个的细胞所承担的功能非常细小。2014 年诺贝尔医学奖授予了一个发现了构建大脑定位系统的细胞——GPS 细胞的研究。当动物到达某一个具体的地点,相应的细胞就会发出信号。与之相类似的是「Jennifer Aniston 神经元」的发现,灵感来自于看到特别的名人,单个的神经元会做出反应。


Neuralink 和 Kernel 等公司对脑机接口的前景非常看好,通过脑机接口,思想、图像和运动可以是无缝地编码和解码,这就要求脑机接口要有很高的分辨率。美国国防高级研究计划局(DARPA)是五角大楼的下属机构,该机构今年将 6500 万美元分配给 6 个组织,以创造较高分辨率的植入接口。BrainGate 和其它公司也在独自进行这种系统的研发。


这些研究人员所面临的挑战很巨大。完美的植入需具备安全,微小、无线、持久等特点。能够高速转移巨大的数据量。与目前的技术相比,这一技术需要与更多的神经元进行交互(DARPA 项目设立的目标是到 2021 年能够同时处理的神经元数量要达到 100 万)。而且它也需要应付人脑环境,Wyss Centre 的 Claude Clément 将之比作海边的丛林:咸湿、闷热。「大脑并不是科技发挥的合适地点。」他说。作为首席技术官,他应该很知道这一点。


但这仍然没有阻止人们进行尝试,创造更好的植入方式。人们有关这方面的研究可以分成两个不同的范畴,第一种是在当前技术基础上改进微小有线电极,第二种是走向一种新型的非电方向。


先从让电极变得更小、更加智能开始。Ken Shepard 是哥伦比亚大学电子生物医药工程专业的教授,他的实验室也受到了 DARPA 基金的资助,目标是研发一种设备,通过精确地对神经元进行刺激,在大脑内产生图像,帮助具有完整视觉皮层的盲人看见东西。他认为,通过采用先进的互补性氧化金属半导体(CMOS)电子器件,可以实现他的目标。


Shepard 教授认识到,任何需要嵌入的电极都会造成细胞损坏,因此,他想要构建一种全新的接口模式,凌驾于所有接口设备之上,这种新的接口设备将被放在大脑皮层上面以及大脑细胞膜下面。他也创造了第一代 CMOS 芯片原型,大小 1cm×1cm,包含 65000 个电极;第二代更大的版本将容纳 100 万个传感器。同其他想要试图让植入部件发挥作用的人一样,Shepard 教授也不是仅仅只是将传感器连接到芯片上,他需要添加同样数量的放大器,这是一种转换器,可以将潜在的行动信号转换成机器能够理解的的数字 0 和 1,还需要放置一个无线链接,将数据发送(或接收)到头皮上的中转站。进而通过无线的方式,将数据发送(或接收)到外部处理器上进行解码。


可植入设备的另外一个巨大的困难是设备需要进行充电。在这个领域,没有人对使用电池作为电源有信心。电池体积太大,电池液流进大脑的风险也太高。和其他研究者一样,Shepard 博士采用的是电感耦合的方式,电流通过一个线圈,创造一种磁场,可以将电流引导到第二个线圈(这种方式和电动牙刷充电的方式类似),这个动作是由芯片上的线圈和中转站完成。




在美国的西海岸,一家初创公司 Paradromics 也在使用电感耦合对可移植设备提供电源。但公司老板 Matt Angle 认为单纯地改装接口并不会产生很高的分辨率。相反,他正在努力创造可以被放进大脑组织的细小的玻璃束和金属微线圈,有点像犹他电极,但拥有更多的传感器。为了防止线绕在一起,减少需要处理的神经元的数量,公司使用牺牲聚合物将它们分开;聚合物溶解了,但是线保持分离。它们绑定在高速 CMOS 线路上。明年,带有 65000 个电极的设备将在动物研究中进行使用。


DARPA 的目标是创造一个可以用在人类身上的 100 万线设备,在实现这个目标之前,Paradromics 还有很多的事情要做。首要的问题是处理大脑中产生的大量数据。Angle 博士认为,最初的设备每秒产生 24Gb 的数据(Netflix 上一个超高分辨率的电影每小时的数据量是 7GB)。在动物身上,这些数据可以通过一个数据线转移到一个巨大的铝制处理器上。但如果放在人的头上看起来会很难看;此外,如此大量的数据在头颅内处理以及无线传输过程中会产生太多的热量。


因此,Paradromics,以及其它试图创造一个更高宽带信号的人,不得不找到一种对数据进行压缩而且还不会损害信息传送的数度和质量的方式。Angle 博士认为可以通过两个方式实现这一点:第一,忽视动作之间静默的瞬间,而不是费力地对这些无效的信息进行解码;第二,将特殊动作的波型进行描述,而不是记录曲线上的每一个点。事实上,他将数据压缩看成是公司最大的卖点,希望其他想要研发特殊脑机接口应用或者假体的人只需简单地将他的数据压缩方式应用到自己的系统中就行了。「我们将自己视为神经数据的脊梁骨,像高通或英特尔一样。」他说。


一些研究人员正试图摆脱有线植入的想法。在布朗大学,Arto Nurmikko 正在领导一个跨学科的团队研发「神经颗粒」,每一个颗粒如同糖粒一样大小,可以放在大脑皮层上部或者植入到大脑内部。每一个颗粒都有内置的放大器、模拟数字转换器、以及可以将数据传送到中转站的装置,中转站通过感应的方式给颗粒充电,并将信息传到外部的处理器。Nurmikko 博士正在在啮齿动物上测试这一系统的各项参数,希望最终能够在大脑里放入数千个这样的颗粒。




与此同时,在哈佛大学的实验室,Guosong Hong 正在展示另外一种创新性的接口。他把一个注射剂放在一杯水中,并在水中注射进一个微小,闪着亮光的网。看起来有一种奇特的美感。Hong 博士是化学教授 Charles Lieber 实验室的一名博士后;他们二人均致力于创造一种消除掉生物和电子学之间界限的神经接口。他们的解决办法是发明一种由柔然聚合物制成的多空网,叫做 SU—8,并装有传感器和感应金属。


这种网的设计可以解决多种问题,比如科学家们需要绕过对身体外部进行反应的免疫系统。通过对这种柔韧、轻软的神经组织进行复制,允许神经元和其它类型的细胞在其内部进行生长,可以避免植入带来的伤害。而且它占据的空间也很少,不到犹他电极总量的 1%。这一技术在动物实验中效果很好,下一阶段,这种网会被放入对其它治疗没有反应只能等着移除组织的癫痫患者的大脑内。


在数英里之外的 MIT,Polina Anikeeva 实验室的成员也在试图研发与神经组织的物理属性相关的设备。Anikeeva 是一名材料科学家,是斯坦福大学 Karl Deisseroth 实验室第一个投身于神经科学的人。斯坦福大学在光遗传学方面具有领先地位,光遗传学涉及基因工程细胞,可以根据光线进行反应。当她第一次看到老鼠黏黏的大脑时,觉得大为震惊。「将很有弹性的小刀放进很有弹性的巧克力布丁当中是一件很困难的事情,」她说。


她解决这一问题的方式是创造一个宽度在 100 微米的多空纤维,如同头发丝一样细小。这个设备比其它设备更加的紧密,但最主要的还是它可以进行多重任务。「仅仅有电流和电压,电子是无法做这个事情的,」她说。意在说明,大脑交流不仅仅是涉及到电子,还涉及到化学。


Anikeeva 的传感器使用的电极拥有一个负责记录的通道,同时,它也可以利用光遗传学的优势。第二个通道用来传递光敏感通道蛋白,这是一种藻类蛋白,通过将这种蛋白运输到神经元,神经元也将具备光线敏感能力。第三个通道用来投射光束,以便这些被改变的神经元能够被激活。


光遗传能否安全地应用在人类身上?现在下结论还为时尚早,至少光敏感通道蛋白必须通过一种病毒才能够被送入细胞中,另一个值得大家思考的问题是在大脑中投射光的最大安全剂量是多少。目前,人们正在进行临床试验,让光感受器受损的人的视网膜神经节变对光线敏感起来。DARPA 资助的另外一个机构是位于巴黎的 Fondation Voir et Entendre,旨在使用技术将特殊眼镜上的图像直接转移到盲人的视觉皮质上。理论上来说,其它的感官也可以被恢复,有研究表明,老鼠的内耳细胞会自发地产生光学刺激,用来对听力进行控制。


Anikeeva 博士正在试验另外一种刺激大脑的方式。她认为,虚弱的磁场可以穿透神经组织。加热被注入大脑中的磁性纳米粒子,如果被更改的神经元附近的热感辣椒素受体被激活,增高的温度将激活相应神经元。


除了电压、光线、磁场,另外一个记录并激活神经元的备选方案是超声。加州大学伯克利分校的 Jose Carmena 和 Michel Maharbiz,是这一方法主要的支持者。这一方法同样涉及将细小的颗粒(他们称之为「神经尘埃」)插入到组织中。超声会对尘埃上的结晶产生影响,这种尘埃振动起来就像音叉一样,可以产生电压,给晶体管提供电能。无论是肌肉还是神经元,组织周围的电子活动会改变微粒对超声发出的回声的性质,从而这种活动可以被记录下来。


这些新的研究,也产生了很多新的问题。如果我们的目标是为了创造一个可以覆盖大脑全部区域的「全脑接口」,就一定会存在物理局限,线、颗粒或者尘埃,人类的大脑能承受多少额外的物质。如果这种元件可以制作得足够微小,完全能够解决这个问题,则又会产生另外一个问题:这些元件会在大脑里移动吗,如果移动的话会产生什么后果呢? 一次手术最多能在大脑不同的区域进行多少植入呢?


而采用微小灵活的材料可能会产生「湿面条」问题,元件太滑,导致植入很难放置到正确的位置.(有传言称,Neuralink 正在研发一种自动「缝纫机」,目的就是固定住相关组织。)


所有的这些都说明了研发一种既安全又有效的神经脑机接口是多么困难的一件事。但很多人都在努力创造这样一种设备无疑是一件幸事。「我们正在接近这样一个拐点,将能够对大脑活动进行大规模的记录和刺激,」伦敦 Crick Institute 神经科学家 Andreas Schaefer 这样说道。


即使是这样,提取大脑中的数据或者说将数据放入大脑仅仅是第一步而已。接下来的一步是处理这些数据。


机器学习与大脑的结合


一旦数据从大脑中提取出来,如何才能运用到最佳效果呢?


对那些认为脑机接口永远不会流行的人,有一个简单的回答:这样的接口已经存在了。全世界有超过 30 万人已经在耳内植入人工耳蜗。严格地说,这个听觉装置与神经组织没有直接的交互作用,但其效果并无不同。一个处理器捕捉声音,它被转换成电信号并发送到内耳的电极,刺激耳蜗神经,使大脑听到声音。神经学家 Michael Merzenich 是发明这些设备的人员之一,他解释说,这种植入物只提供了一种语言的粗陋转译,「就像用拳头来弹奏肖邦的音乐」。但是,只要经过一小段时间,大脑就能搞明白信号的意思。


这为 BCI 方程的另一部分提供了线索:一旦接口进入了大脑,它该做什么。正如人工耳蜗植入所显示的,一个选择是让世界上最强大的学习机器(即大脑)完成这项工作。在 20 世纪中叶的一项著名实验中,两位奥地利研究人员发现,大脑可以很快地适应一副将他们投射到视网膜上的图像颠倒过来的眼镜。最近,科罗拉多州立大学的研究人员发明了一种能将声音转化为电脉冲的装置。当被压在舌头上时,它会产生各种各样的刺痛感,大脑就会学着将其与特定的声音联系在一起。


因此,大脑非常善于解决问题,电脑也是如此。例如,助听器的一个问题是它会放大所有传入的声音。当你想在像聚会那样嘈杂的环境中关注一个人时,这就提供不了什么帮助。哥伦比亚大学的 Nima Mesgarani 正在研究一种方法来区分你想要听的人。这个想法是,一种算法将区分同时说话的不同声音,创建一个声谱图,或者说是一种对每个人的说话的声音频率的可视表示。然后当助听器的佩戴者专注于一个特定的对话者时,它观察大脑中的神经活动,这个活动被创建为另一个声谱图,两个声谱图中相匹配的声音会被放大(见图)。




算法比大脑可塑性更强,它可以使瘫痪的人用意念移动光标。例如,在今年早些时候发表的研究中,Shenoy 博士和他在斯坦福大学的合作者记录了大脑控制打字的巨大进展。这不是来自新的信号,也不是来自更神奇的接口,而是来自更好的数学方法。


进展部分归功于 Shenoy 博士对他算法测试阶段产生的数据的使用。在训练阶段,用户反复被要求将光标移到特定的目标;机器学习程序识别与此运动相关的神经活动的模式。在测试阶段,用户会看到一个字母网格,并被要求移动光标到他想要的地方;这测试了算法预测用户意愿的能力。通过重新对算法进行调整,使其包含用户达到特定目标的意图,这些信息也显示在数据中,这样可以使光标更快地移动到目标位置。


但尽管算法正在变得越来越好,它仍有很大的改进空间,尤其是因为实验数据仍然稀缺。尽管有人声称智能算法可以弥补不干净的信号带来的干扰,但算法也只能做这么多了。「机器学习能实现几乎不可思议的事情,但它并不能施展魔法,」Shenoy 博士说。请你想想,使用功能性近红外光谱法来识别闭锁综合征患者简单的「Yes or No」问题的答案,有 70% 的正确率。对于这些根本无法交流的人来说,这是一个巨大的进步。但是在事关他们生死的问题上,这一数字显然是不够的。我们需要更多更清晰的数据来建立更好的算法。


这并不能帮助我们了解大脑的工作方式,我们在这方面的知识仍然是如此的不完整。即使有更好的接口,脑器官特殊的复杂性也不会很快被解开。例如,光标的移动只有两个自由度,而人手有 27 个。视觉皮层研究人员经常使用静态图像,而现实生活中的人类必须处理不断移动的图像。对于一些复杂的研究,例如当人们抓起一个物体的过程中他们的感官反馈,才刚刚开始。


尽管计算神经科学家可以利用机器学习技术取得更广泛的进展,从面部识别到自动驾驶汽车,但是神经数据的噪声带来了特殊的挑战。当有人想要在某一个场合移动他的右臂时,运动皮层的一个神经元可能会以每秒 100 个动作电位的速度放电,但在另一个场合下的速度是 115,更糟的是神经元的指令可能会重叠。所以,如果一个神经元的放电速度是 100 次每秒向右移动,70 次每秒向左移动,那么 85 的平均速率是什么意思呢?


至少运动皮层的活动有一个可见的运动形式的输出,可以通过输出与神经数据的关联性来进行评估,但其他认知过程则缺乏明显的输出。就拿 Facebook 感兴趣的领域来说:沉默,或者想象和演讲。大脑对想象的语言的表达是否与实际(说过或听过的)语言的表达相似到可以互为参考?另一个因素同样阻碍了进展:「关于运动是如何由神经活动产生的,我们积累了一个世纪的数据,」BrainGate 的 Hochberg dryly 博士说。「但我们对动物语言的了解较少。」


更高层次的功能,比如决策,会带来更大的挑战。BCI 算法需要一个明确定义神经活动与问题参数之间关系的模型。匹兹堡大学的 Schwartz 博士说:「问题从定义参数本身就开始了。认知是什么?你怎么用一个方程来描述它?」


这些困难表明了两件事。第一,找到一套用于全脑活动的算法还有很长的路要走。第二,在脑机接口中进行信号处理的最佳路径可能是机器学习和大脑可塑性的结合。关键是要建立一个让这两个组件合作的体系。这不仅仅是为了效率,也是出于道德的考虑。


]]> 原文: http://ift.tt/2CQvchx
RSS Feed

机器知心

IFTTT

2018年1月6日星期六

36小时,造一个亚马逊无人商店 | 实战教程+代码

夏乙 问耕 编译整理量子位 出品 | 公众号 QbitAI

无人超市,未来趋势。

上面这段视频,展示了逛亚马逊的Amazon Go无人超市是种怎样的体验。毫无疑问,一个完善的无人超市需要复杂的技术支撑。

现在,挑战来了。

你能不能在一天半的时间里,从零着手搭建出一个基本的Amazon Go无人超市系统?让客户可以体验无缝衔接的购物体验?

当然可以。

有个四人小组就在最新的一次黑客马拉松中,完成了这样一次挑战。他们只用了不到36个小时,就搞定了一切,而且还把整个教程公布了出来。

首先,得有一套文档,列出全部需要做/可以做的事情;然后就是根据文档,去分模块实现。他们给自己的"山寨"Amazon Go起名叫EZShop,由这六大模块构成:

量子位来分别介绍一下他们用到的些模块:

Kairos人脸识别API

这是EZShop的一个基本组件,能够识别、存储特定的人脸信息。EZShop用了它两个API:/enroll和/verify。

/enroll的意思是"拍张照,找到里边的脸,然后把这张脸存到你创建的相册里。"

这个小组就为顾客们创建了一个相册,也叫EZShop。顾客注册时,脸就会存到这个相册里,系统的实时数据库也会向这个顾客的注册信息返回并存储一个face_id。

当要验证顾客的照片时,就需要把它送到/verify终端那里,终端返回一个匹配可能性最高的face_id。

在实际应用中,自己用TensorFlow搭一个人脸识别应用可能比用这种API更好,但是36小时hackathon嘛,API挺好用的。

实时Firebase数据库

这也是一个非常基本的组件,整套EZShop里,所有其他的组件都得和它实时交互。Firebase支持在数据库里的任何数据上创建定制化的变化监听器,这样一个特性再加上简单的设置流程,用起来简直毫不费力。

整个计划很简单,数据库存储一组商品、一组顾客,如下面的JSON文件架构所示:

{   "items": [     {       "item_id": 1,       "item_name": "Soylent",       "item_stock": 1,       "price": 10     }   ],   "users": [     {       "face_id": 1,       "name": "Subhan Nadeem",       "in_store": false,       "cart": [         1       ]     }   ] }

新顾客通过Kairos API注册之后,就会被添加到users那一组。当顾客出入时,他的in_store布尔值会更新,在商店经理和个人App界面上都有所体现。

顾客拿起商品时,items那组数据会有更新。系统能够识别出哪个顾客拿了哪件商品,商品的ID会被添加到顾客的cart栏。

经理App和顾客App

团队里的iOS开发者John只用了12小时,就写完了这两个App。

经理App是iPad版的,能将新用户添加到Kairos API和Firebase数据库中,也能显示店里顾客的列表和货物的库存清单。商店经理能用这个App操作Firebase数据库、查看数据库发生的变化。

这个App还能追踪店内当前的所有用户,并获取他们的姓名和照片。当用户离开时,这个系统也能实时更新店内当前用户列表。

另一个App是供商店顾客用的。

顾客要进店,需要先上传自己的照片,注册成为可以在无人店内购物的用户。图片通过API上传到Imgur(一家国外图片分享网站),并与用户名相关联。

EZShop会根据这个照片来识别顾客。顾客进入商店之后,它们购物车的更新会立刻显示在这个App上。顾客离开商店时,手机上还会收到一条推送通知,显示着他们花了多少钱。

货架、传感器和摄像头

这些东西由Soheil和Ruslan负责,他们设计了货架,写了相关的Pi Python脚本。

货架大致长这样:

在货架上,三件商品并排放着,中间的塔上安装监控摄像头(就是图上那个手机),两排商品后边还装有超声波传感器。超声波传感器和树莓派相连接,树莓派运行的Python脚本处理传感器与货架上物体之间的距离读数。

商品被拿起来的时候,传感器的读数就会变化,触发数据库中商品库存的更新。

塔顶上绑着的手机(摄像头)也会探测到场景的变化,还会识别拿商品的顾客。然后,这件商品会被放到顾客的虚拟购物车里。

出入口的摄像头

在商店的出口和入口,这个小组使用了Android手机作为面部识别摄像头。

两部手机被安装在一个三脚架上,分别冲着相反的方向,一个方向用来识别入店的顾客,另一个方向用来识别出店的顾客。

至于人脸检测技术,Google有一套非常棒的API,能够很好地检测出人脸。

API地址:http://ift.tt/1Erk9kt

特别的是,这个API还能提供从相机到人脸之间的大致距离,一旦顾客的距离足够近,摄像头就会拍照并使用Kairos API进行验证,然后与Firebase数据库同步,更新顾客在店内的状态。

在客户识别之外,系统还增加了个性化的语音问候,这进一步提升了用户体验。

一旦顾客离开商店,Android应用程序将会检测顾客购买了什么商品,并计算消费总额,并通过Firebase云消息向顾客的个人App推送账单明细。

总结

在36个小时的黑客马拉松中,这个项目的团队大概只睡了6个小时,期间克服了许许多多的障碍,也有一些还未解决的问题。

他们的努力也没有白费,这个项目最后夺得了第一名。

有上百人进入了这个快速搭建的无人超市,拿起商品,然后离店,随即完成结算并获得账单。整个过程中不需要收银员、不需要排队……

这个项目是开源的,想自己动手玩一下的话……GitHub地址在此:http://ift.tt/2m4JZK3

原文地址:http://ift.tt/2COi0Je

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2m3jODC
RSS Feed

RSS5

IFTTT

36小时,造一个亚马逊无人商店 | 实战教程+代码

夏乙 问耕 编译整理量子位 出品 | 公众号 QbitAI

无人超市,未来趋势。

上面这段视频,展示了逛亚马逊的Amazon Go无人超市是种怎样的体验。毫无疑问,一个完善的无人超市需要复杂的技术支撑。

现在,挑战来了。

你能不能在一天半的时间里,从零着手搭建出一个基本的Amazon Go无人超市系统?让客户可以体验无缝衔接的购物体验?

当然可以。

有个四人小组就在最新的一次黑客马拉松中,完成了这样一次挑战。他们只用了不到36个小时,就搞定了一切,而且还把整个教程公布了出来。

首先,得有一套文档,列出全部需要做/可以做的事情;然后就是根据文档,去分模块实现。他们给自己的"山寨"Amazon Go起名叫EZShop,由这六大模块构成:

量子位来分别介绍一下他们用到的些模块:

Kairos人脸识别API

这是EZShop的一个基本组件,能够识别、存储特定的人脸信息。EZShop用了它两个API:/enroll和/verify。

/enroll的意思是"拍张照,找到里边的脸,然后把这张脸存到你创建的相册里。"

这个小组就为顾客们创建了一个相册,也叫EZShop。顾客注册时,脸就会存到这个相册里,系统的实时数据库也会向这个顾客的注册信息返回并存储一个face_id。

当要验证顾客的照片时,就需要把它送到/verify终端那里,终端返回一个匹配可能性最高的face_id。

在实际应用中,自己用TensorFlow搭一个人脸识别应用可能比用这种API更好,但是36小时hackathon嘛,API挺好用的。

实时Firebase数据库

这也是一个非常基本的组件,整套EZShop里,所有其他的组件都得和它实时交互。Firebase支持在数据库里的任何数据上创建定制化的变化监听器,这样一个特性再加上简单的设置流程,用起来简直毫不费力。

整个计划很简单,数据库存储一组商品、一组顾客,如下面的JSON文件架构所示:

{   "items": [     {       "item_id": 1,       "item_name": "Soylent",       "item_stock": 1,       "price": 10     }   ],   "users": [     {       "face_id": 1,       "name": "Subhan Nadeem",       "in_store": false,       "cart": [         1       ]     }   ] }

新顾客通过Kairos API注册之后,就会被添加到users那一组。当顾客出入时,他的in_store布尔值会更新,在商店经理和个人App界面上都有所体现。

顾客拿起商品时,items那组数据会有更新。系统能够识别出哪个顾客拿了哪件商品,商品的ID会被添加到顾客的cart栏。

经理App和顾客App

团队里的iOS开发者John只用了12小时,就写完了这两个App。

经理App是iPad版的,能将新用户添加到Kairos API和Firebase数据库中,也能显示店里顾客的列表和货物的库存清单。商店经理能用这个App操作Firebase数据库、查看数据库发生的变化。

这个App还能追踪店内当前的所有用户,并获取他们的姓名和照片。当用户离开时,这个系统也能实时更新店内当前用户列表。

另一个App是供商店顾客用的。

顾客要进店,需要先上传自己的照片,注册成为可以在无人店内购物的用户。图片通过API上传到Imgur(一家国外图片分享网站),并与用户名相关联。

EZShop会根据这个照片来识别顾客。顾客进入商店之后,它们购物车的更新会立刻显示在这个App上。顾客离开商店时,手机上还会收到一条推送通知,显示着他们花了多少钱。

货架、传感器和摄像头

这些东西由Soheil和Ruslan负责,他们设计了货架,写了相关的Pi Python脚本。

货架大致长这样:

在货架上,三件商品并排放着,中间的塔上安装监控摄像头(就是图上那个手机),两排商品后边还装有超声波传感器。超声波传感器和树莓派相连接,树莓派运行的Python脚本处理传感器与货架上物体之间的距离读数。

商品被拿起来的时候,传感器的读数就会变化,触发数据库中商品库存的更新。

塔顶上绑着的手机(摄像头)也会探测到场景的变化,还会识别拿商品的顾客。然后,这件商品会被放到顾客的虚拟购物车里。

出入口的摄像头

在商店的出口和入口,这个小组使用了Android手机作为面部识别摄像头。

两部手机被安装在一个三脚架上,分别冲着相反的方向,一个方向用来识别入店的顾客,另一个方向用来识别出店的顾客。

至于人脸检测技术,Google有一套非常棒的API,能够很好地检测出人脸。

API地址:http://ift.tt/1Erk9kt

特别的是,这个API还能提供从相机到人脸之间的大致距离,一旦顾客的距离足够近,摄像头就会拍照并使用Kairos API进行验证,然后与Firebase数据库同步,更新顾客在店内的状态。

在客户识别之外,系统还增加了个性化的语音问候,这进一步提升了用户体验。

一旦顾客离开商店,Android应用程序将会检测顾客购买了什么商品,并计算消费总额,并通过Firebase云消息向顾客的个人App推送账单明细。

总结

在36个小时的黑客马拉松中,这个项目的团队大概只睡了6个小时,期间克服了许许多多的障碍,也有一些还未解决的问题。

他们的努力也没有白费,这个项目最后夺得了第一名。

有上百人进入了这个快速搭建的无人超市,拿起商品,然后离店,随即完成结算并获得账单。整个过程中不需要收银员、不需要排队……

这个项目是开源的,想自己动手玩一下的话……GitHub地址在此:http://ift.tt/2m4JZK3

原文地址:http://ift.tt/2COi0Je

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2m3jODC
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...