2017年12月3日星期日

MSRA研究员提出物体关系模块,实现首个完全端到端的物体检测系统

现有的物体检测算法均采用单独识别物体的方式,而没有利用物体之间的相互关系。近日,来自微软亚洲研究院视觉计算组的研究员们提出了物体关系模块(object relation module)。该模块通过建模物体间外观和几何的交互信息来首次实现了所有物体的联合推理学习。该模块可以用于提高物体识别的精度,也可以替代通常使用的非极大抑制(non-maximum suppression)后处理方法。在现今最好的物体检测框架下,利用该模块实现了首个完全端到端的物体检测系统。

链接:http://ift.tt/2iK9Klu


目前最好的物体检测方法一般遵循单个区域分类的范式:给定一些候选区域(object proposal),对每个区域单独做分类和回归。此后,运行一个手工设计的启发式后处理方法去删除重复的检测框,称作非极大抑制。


微软亚洲研究院研究员们打破了这一范式,其中的关键是新提出的物体关系模块,这一模块使得所有物体能被联合推理,而不是像目前一般采用的范式那样对每个区域单独处理。如图 1 所示,研究员们将这一个模块应用到物体框识别(instance recognition)和重复框删除(duplicate removal)两个步骤中,物体的识别精度得到提升,同时,此前手工设计但不可或缺的非极大抑制也得以被一个可学习的模块所替换并提升,从而实现首个完全端到端的物体检测器。

图 1. 目前最好的物体检测器基于一个四步法的流程。物体关系模块(红色虚线框)能很方便地嵌入这个流程,用于提升物体框识别和重复框删除这两个步骤,最终得到一个完全端到端的物体检测器。


其中关键的物体关系模块本质上基于 attention 机制。Attention 机制在自然语言处理(NLP)领域已经有不少成功应用,它可以建模处于任意位置或者不同特征分布的元素之间的关系。NLP 中的词语是符合这样特点的元素,物体检测中的物体也是这样的元素,都很适合用 attention 机制来建模。与词语不同的是,物体位于二维的图像空间,不同的物体其尺度和长宽比会有较大差异。一般而言,物体的位置关系(或者几何特征)相比于一维句子中的词语位置会更复杂,并起到更重要的作用。基于此,提出的物体关系模块推广了原始的 attention 权重计算方法,新的 attention 权重将包含两项,一项是原始的权重,另一项是一个新的几何权重。几何权重建模了物体间的空间位置关系,具体来说它考虑相对位置,使得整个物体关系模块满足平移不变性(物体识别中很重要的一个性质)。实验表明这一新的几何权重对于物体关系模块非常重要。


这一新的物体关系模块可以处理任意数目的物体,这些物体是并行处理的(此前通常采用的序列关系建模方法),同时也是可微的,in-place 的(输入输出特征维度不变)。因此,它可以作为一个基本构件很方便地嵌入到任何网络框架中。事实上,在应用到物体检测时,原始的训练方法和超参数不用做任何改变,参数量和计算量也只有少量增加。同时,这一模块也是通用的,这个工作中展示了其在物体检测里的应用,但其应用并不局限于物体检测,事实上看不到任何妨碍其应用到其他诸多视觉问题的理由,例如物体分割,动作识别,视觉自动标题,视觉问答等等。

图 2. 左:物体关系模块;右:关系特征计算。f_A 表示输入的表观特征,f_G 表示输入的几何特征(4 维 bounding box),f_R 表示关系特征。该模块可以完全由现有深度学习框架中的基本操作来实现(例如 mxnet)。

 

图 3. 将物体关系模块应用到 a) 物体框识别(增强的 2fc head)和 b)重复检测框删除网络。在端到端检测系统中,b) 中红色箭头部分的梯度将会回传。


表 1. 应用到物体框识别(对应图 3a)的 ablation 实验(ResNet50 on COCO minival)。添加 {4, 4} 个模块可以带来 3.2 个点(mAP@all)的提升。为了效率,后面的实验采用 {1, 1} 个模块。

 

表 2. 比较不同的 head 在相同复杂度下的准确率。物体关系模块的提升不是由更多的参数和计算量来实现的(简单加深和加宽提升很小)。


表 3. 应用到重复检测框删除(对应图 3a)的 ablation 实验(none 表示不用相关的特征)。


表 4. 重复检测框删除网络和 NMS/SoftNMS 进行了比较。采用端到端训练以后,检测性能进一步提升(30.5->31.0)。


表 5. 从左到右依次是 2fc head+SoftNMS (baseline),2fc+RM head (应用物体关系模块到 2fc head) 和 2fc+RM head+端到端。基本网络是 ResNet101。训练过程中均采用了在线难样本挖掘(OHEM)。



图 4. 高相关权重的检测框对(代表性例子)。蓝色框是被影响的参考框,橙色框表示对其有较大贡献的检测框(左上角的数字显示具体的相关权重)。左图显示重叠的框对中心的框产生大的影响;有图显示人对手套产生较大影响。

]]> 原文: http://ift.tt/2iKtd5x
RSS Feed

机器知心

IFTTT

Mozilla开源语音识别模型和世界第二大语音数据集

Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。

DeepSpeech:一个开源的语音到文本的转换引擎,可以达到用户期待的高性能


目前市场上只有少量可用的商业性质的语音识别服务,且被少数几个大公司占据。这限制了初创公司、研究者,甚至那些希望在产品和服务中引入语音功能的大型公司的用户选择和可选特性。


这也是 Mozilla 启动并将 DeepSpeech 作为开源项目的初衷。和一群志同道合的开发者、公司和研究者一起,该公司通过应用复杂的机器学习技术,并开发多项新技术建立了一个语音到文本的转换引擎,它在 LibrSpeech 的 test-clean 数据集上仅有 6.5% 的词错率。


DeepSpeech 项目链接:http://ift.tt/20Vt5tY


Mozilla 首次发布的 DeepSpeech 产品中包括了预构建的 Python 包、NodeJS 包和一个命令行二进制,从而使开发者可以立刻使用并进行语音识别实验。


Common Voice:建立世界上种类最多的公开语音数据集,以及开发最优化的语音训练技术


商业化服务如此少的一个原因是数据的缺乏。初创公司、研究者或任何其他想要建立具备语音功能的技术需要高质量的转录语音数据用于训练机器学习算法。目前他们只能获得相当有限的数据集。


为了解决这个问题,Mozilla 在今年七月份启动了 Common Voice 项目(http://ift.tt/2zLSPSP


本次,Mozilla 公布了贡献数据集的第一部分:大约 400,000 份录音,500 个小时时长。所有人都可以在这里下载:http://ift.tt/2j2yEtn


Mozilla 认为,该数据集最重要的贡献是向我们展示了整个世界的样貌——它拥有超过 20000 人的贡献者,新的数据集反映了全世界的语音多样性。通常现有的语音识别服务无法理解不同的方言,且很多服务对男性的识别效果高于对女性的识别效果,这是由训练数据带来的偏差。Mozilla 期望贡献者的数量规模和不同的背景、方言可以为我们创建一个全球化的代表性数据集,进而开发出更具包容性的技术。


虽然目前主要是英文数据,但是未来 Common Voice 将支持对多种语言的贡献,这个计划将从 2018 年上半年开始。


最后,Mozilla 还搜集了下载所有目前常用的其它大型语音数据集的链接,进一步缓解数据集匮乏问题。


原文链接:http://ift.tt/2ikM2vZ


]]> 原文: http://ift.tt/2npj3cd
RSS Feed

机器知心

IFTTT

FAIR提出突触可塑算法:让神经网络学会记住和忘却

Facebook AI 研究院近日联合 KU Leuven 提出了一种由著名神经科学定律——赫泊规则启发的在线学习算法。研究表明,这种方法可以使模型根据当前任务保留过去任务的重要特征,灵活地适应新环境;并且可以无监督地应用于任何预训练模型,而不受基于损失函数方法的限制。


论文:Memory Aware Synapses: Learning what (not) to forget



论文地址:http://ift.tt/2AT8Zhm


人类可以持续不断地学习,陈旧且不常用的知识会被新信息覆盖,但重要且常用的知识不会被随意擦除。目前在人工学习系统中,终生学习(lifelong learning,LLL)主要关注在任务中积累知识和克服灾难性忘却问题(catastrophic forgetting)。在这篇论文中,我们指出,给定有限的模型容量和无限的将要学习的新信息的时候,需要选择对知识进行保留还是擦除。由突触可塑性所启发,我们提出了一种在线学习方法,基于网络对数据的激活频率,以无监督的方式计算神经网络参数的「重要性」。在学习了一个任务之后,每当有样本馈送到网络中,就会基于预测输出对参数变化的敏感度,测量网络的每个参数的重要性。当学习一个新任务的时候,会对重要参数的改变进行惩罚(即阻碍该变化)。我们证明了我们的方法的一个局域版本正好是赫泊规则(Hebb's rule)在识别神经元之间的重要连接的直接应用。我们在一系列的目标识别任务和持续学习向量的挑战性问题上测试了我们的方法,取得了当前最佳的结果,展示了根据需求调整参数的重要性的能力。



图 1. 研究人员提出的持续学习模式。


正如大多数终生学习论文所述,任务是按照序列学习的。在这里我们假设,在任务学习之间,智能体是被激活且持续学习的。在这样的过程中它会看到此前任务中未标记的样本。这种信息可以用来更新模型参数中一些重要的权重。频繁出现的类有更大的贡献。这样,智能体就可以明白哪些类别是重要的,不能被遗忘。作为结果,这些类知识在学习新任务时不会被抹去。

新研究的主要贡献可以总结为:


  • 首先,这是一种新的 LLL 方法——Memory Aware Synapses(MAS)。它基于函数逼近而不是损失函数优化,当学习重要性的权重的时候不需要使用标签。从而该方法可以应用于无标签数据,例如真实的测试环境。
  • 其次,我们证明了我们的 LLL 方法和赫泊学习规律的联系,可以视其为我们方法的局域版本。
  • 最后,我们在目标识别和事实学习(例如,<主, 谓, 宾>三元组,使用向量而不是 softmax 输出)任务中都达到了当前最佳性能。


图 2. 和基于损失函数优化的方法不同,我们的方法基于输入-输出的函数对参数的敏感度(梯度)。(a)在训练第一个任务的同时,(基于损失的方法)测量损失函数对参数变化的敏感度以表示参数重要性。(b)相对的,我们在训练完成之后,使用无标记数据计算输出函数对参数变化的敏感度,测量参数的重要性。(c)当学习一个新任务的时候,对重要参数的改变进行惩罚。


目标识别



表 1. 目标识别的分类准确率(%)。重要性的权重Ω_ij 是在训练数据上计算的。加粗的数据表示当前最佳。



表 2. 目标识别的分类准确率(%)。使用训练数据和测试数据(无标签)计算重要性的权重Ω_ij 的结果对比。


两个任务的实验


我们随机地将事实分成两部分以作为数据的两个批量,B_1 和 B_2,并将任务设置为从 B_1 到 B_2 的迁移。


表 3. 在由 6DS 数据集随机分成的两个任务场景中进行事实学习的平均准确率。



表 4. 对测试条件的适应能力。分别在 B_11 和 B_12(由 B_1 分成的两个子集)上学习重要性的权重。在由 6DS 数据集随机分成的两个任务场景中进行事实学习的平均准确率。


更长的任务序列



表 5. 在由 6DS 数据集分成的 4 个不相交任务场景中进行事实学习的平均准确率。


适应性测试



图 4. 每完成 4 个任务序列中的一个之后,测试对 6DS 数据集的(关于体育运动的)子集的平均准确率。


其中 g-MAS(粉色线)学习到该子集是重要的,需要保留,并显著地防止了对该子集的忘却。联合训练方法(Joint Training,黑色虚线)作为参考,但实际上它违反了 LLL 的设置,因为它是同时训练所有的数据。

]]> 原文: http://ift.tt/2A0wW6r
RSS Feed

机器知心

IFTTT

计算机视觉这一年:分割、超分辨率、风格迁移、着色和动作识别

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第二部分做了编译介绍,第一部分和第三部分详见《计算机视觉这一年:这是最全的一份 CV 技术报告》和《计算机视觉这一年:2017 CV 技术报告 Plus 之卷积架构、数据集与新趋势》。


分割


计算机视觉任务的核心是分割(Segmentation)处理,它将整幅图片分割成可被标记和分类的像素组。在此基础上,语义分割(Semantic Segmentation)则更进了一步,它试图从语义上去理解一幅图像中每个像素扮演的角色。比如:一个图像中出现的是一只猫还是汽车,还是其它类别的事物。然而,实例分割(Instance Segmentation)又在语义分割上更进了一步,它能够分割出一个类别事物中具体不同的对象,比如以三种不同颜色来标记不同的三只狗。此外,分割技术的应用十分广泛,大量语义分割技术被应用于自动驾驶中。


可以认为,在图像分割领域,部分最重要的贡献应该归功于 FAIR 实验室。自 2015 年起,他们便展开了名为 DeepMask[46] 的研究项目。DeepMask 可以在对象上粗略生成一个初级版本的分割区域(也即一个「mask」)。在 2016 年,Fair 开发了 SharpMask[47] 系统,它可以对 DeepMask 提供的分割区域进行修正,纠正漏掉的细节并且改善语义分割效果。在此基础之上,MultiPathNet[48] 可以识别出由每个分割区域描述的物体。


「为了能够识别一般物体的形状,你必须首先在高层面(high-level)理解所观察的事物(DeepMask),但是如果要想更具体地来识别它们,那你则需要观察那些小到像素的低层面(lower-level)特征(SharpMask)。」——Piotr Dollar,2016.[49]


图 6:FAIR 语义分割技术实例展示,来源 Dollar(2016)。上图展示了 FAIR 应用的图像分割技术,它按顺序包括了 DeepMask、SharpMask 和 MutiPathNet 技术。该流程可实现大规模场景中的精准分割与分类。


视频传递网络(Video Propagation Network)[51] 通过建立一个简单模型,从视频第一帧开始便向后传递精准的对象分割区域。此外,在整个视频的传递过程中模型也会加入一些额外的信息。


在 2016 年,为了解决上文提及的大规模任务以及本地实现问题,研究人员开始寻找替代性的网络方案。DeepLab 就是一个例子,它在图像语义分割任务上得到了令人激动的成果。Khoreva et al.[53] 基于 Deeplab[52] 的早期工作(circa 2015)提出了一个半监督学习方法,该方法和监督学习网络的性能水平不相上下。


通过使用端到端网络,计算机视觉进一步修正了网络共享有用信息的方法。该方案降低了多进程全方位子任务分类的计算需求。以下是两篇使用了该方法的论文。


  • 100 Layers Tiramisu[54] 是一个全卷积 DenseNet,其中每一层都以前馈的方式与其它层级相连接。该网络在多个标准数据集上都以更少参数和训练/处理过程达到了目前最先进水平。
  • Fully Convolutional Instance-aware Semantic Segmentation[55] 可以同时执行具体实例的掩码(mask)预测与分类这两项子任务。该网络获得了微软亚洲研究院 COCO 分割挑战的冠军。


然而在此之外,ENet[56](这是一种用于实时语义分割的深度神经网络架构)却并不属于这一类别。它也展示出了可以降低计算成本的经济适用价值,可以更好地用于移动设备。


我们希望尽可能地将这些前沿技术与已有的实际应用联系起来。所以下面列举了医疗卫生领域在 2016 年内最有意思的一些图像分割项目:

  • A Benchmark for Endoluminal Scene Segmentation of Colonoscopy Images[57]
  • 3D fully convolutional networks for subcortical segmentation in MRI: A large-scale study[58]
  • Semi-supervised Learning using Denoising Autoencoders for Brain Lesion Detection and Segmentation[59]
  • 3D Ultrasound image segmentation: A Survey[60]
  • A Fully Convolutional Neural Network based Structured Prediction Approach Towards the Retinal Vessel Segmentation[61]
  • 3-D Convolutional Neural Networks for Glioblastoma Segmentation[62]


其中我们最欣赏的一个准医疗分割应用为 FusionNet[63],这是一个深度残差卷积神经网络,它可以将图像分割任务用于分析生物神经网络的连接方式,其能力与最先进的电子显微镜分割方法不相上下。


超分辨率、风格迁移与着色


并非所有计算机视觉任务都是为了去扩展机器的仿生认知能力。常常我们会发现,那些一个个走进公众的生活的新奇应用产品都使用了具有极强适应能力的神经网络以及其他机器学习技术。去年在超分辨率任务、风格迁移与图像着色的研究就是这样的例子。


超分辨率(Super-resolution)任务指的是从一个低分辨率样本上预测出一个高分辨率版本的过程,此外,它也指对图像特征在不同放大倍数情况下的预测(这一点人类大脑几乎可以不费吹灰之力就办到)。最初的超分辨任务是通过如「双三次插值法」、「最邻近规则」这样的简单技术来实现的。但是对于商业应用而言这显然不够,人们希望系统能克服因数据源质量不高而出现的分辨率低的问题,实现像电视剧《犯罪现场调查:迈阿密》中那样的图像增强技术。正是这样的愿景推动着领域研究的前进。下面列举相关方面的年度进展以及其潜在的影响:


  • 神经增强(Neural Enhance)[65]:是 Alex J. Champandard 的项目,通过结合 4 篇不同的研究论文,他实现了自己的超分辨率方案。
  • Real-Time Video Super Resolution:2016 年也有两篇相关的著名论文 [66][67]。
  • RAISR(Rapid and Accurate Image Super-Resolution),该技术来自谷歌,通过使用由高、低分辨率图像配对而成的数据训练的过滤器,系统避免了对内存与神经网络速度的高度依赖。作为一个基于学习的框架,RAISR 比其竞争对手快了两个数量级。此外,相较于基于神经网络的方法,系统的内存需求达到了最低。因此超分辨率技术可以扩展到移动设备上。[69]


图 7:SRGAN 的超分辨率任务示例,来源 Ledig et al. (2017)[70]。从左至右分别为「双三次插值法」、优化了均方误差性能的深度残差网络、深度残差生成对抗网络、原始高清图像。相关的峰值信噪比(PSNR)与结构相似性在括号中已列出。[4 倍清晰度倍增]


使用了生成对抗网络之后,系统达到了目前超分辨率技术的最先进水平:

  • SRGAN[71] 使用了一个判别网络,它可以区分经过超分辨率处理的图像与原始照片图像的区别。借助这个网络,系统可以为大量公开数据集上的采样图像提供和照片一样真实的纹理特征。


尽管从峰值信噪比(PSNR)标准来看 SRResNet 的表现最佳,但是就画质而言,SRGAN 的表现才是最好的,它生成了更好的纹理细节,并且得到了最高的平均主观意见分(Mean Opinion Score, MOS)。「就我们所知,这是第一个能够以*4*倍清晰度推理提升逼真自然图像的框架。」[72]


  • Amortised MAP Inference for Image Super-resolution[73]:提出了一个计算最大后验概率(Maximum a Posteriori,MAP)的方法(该方法使用了一个卷积神经网络)。他们的研究提出了三条优化方法,然而对于每一条来说,其目前在真实图像数据上的表现都逊于生成对抗网络。


图 8:风格迁移,图中显示的是将不同的风格迁移到一只猫的照片上(原图位于左上方),图片来源 Nikulin & Novakle(2016)。


毫无疑问,风格迁移以新颖的方式使用了神经网络,从而进入了公众领域。比较著名的案例如 Facebook 去年进行的整合以及像 Prisma[74] 和 Artomatix[75] 等公司的成果。虽然风格迁移这种技术由来已久,但是直到 2015 年,它可以用神经网络进行处理的方法才随着《艺术风格的神经算法》[76] 的发表而被人知晓。从那以后,作为计算机视觉领域的系列进展,风格迁移的概念得到了 Nikulin 和 Novak[77] 二人的扩展,并且风格迁移也被应用到了视频领域 [78]。


图 9:风格迁移的其他案例,来源于 Dumoulin et al. (2017, p. 2)[79]。上图第一行(从左到右)的图片代表了系统将向原始图片迁移的艺术风格。图中第一列(从上到下)的图片则是将被进行艺术迁移处理的 3 张原始图片(女性、金门大桥、草地环境)。单个风格迁移网络在使用条件归一化后,可以同时捕捉到 32 种风格。图中显示的是其中 5 种。全部样式可在原论文附录中进行查看。该项工作将会在 2017 ICLR 大会上进行讨论。


风格迁移是一个热门话题,它会在视觉上给人耳目一新的感觉。试想你有一副图,然后将另一幅图的风格特征应用到这幅图上会怎么样,比如用一位著名画家或某一副名画的风格来修改你的图像。就在今年,Facebook 发布了他们的 Caffe2Go[80],该深度学习系统可以整合到移动设备上。谷歌也发布了部分有趣的工作,通过结合多种样式,系统可以创造一种独一无二的图像样式,完整论文参见 [82]。


此外,移动整合、风格迁移技术已经应用在了游戏产业的创作中。我们团队的成员最近在 Artomatix 公司创始人兼 CTO Eric Risser 的一个演讲中看到,他们已经在讨论将风格迁移技术应用于游戏内容创作了(比如图像纹理的变化等等)。这种工作会显著减小传统图像纹理设计师的工作。


着色(Colourisation)是指将单色图像转换成全彩的过程。最初这样工作是由人工操作完成的,人们会花非常多的精力去选择每幅图中特定像素应该使用的颜色。长久以来,让画面变得真实一直是人类着色家的专利,但是到 2016 年,技术的进步让机器也可能办到这一点。虽然人类可能无法精准地还原图像中事物的真实颜色,但是他们可以凭借自己对真实世界的知识来让自己的着色在某种程度上看起来是连贯且不奇怪的。


在着色的过程中,网络会根据其对物体位置、纹理与环境的理解来选择最可能的颜色添加到图像上。比如它会学习到皮肤是略带血色的,天空是带些蓝色的。


下面是年度三项影响力最大的工作:

  • Zhang 等人 [83] 提出了一个方法,该方法以 32% 的概率成功欺骗了人类测试者,这是一个着色视觉的图灵测试。
  • Larsson 等人 [84] 通过使用深度学习来进行直方图预测,他们让系统实现了全自动着色功能。
  • Lizuka, Simo-Serra 和 Ishikawa[85] 展示了一个基于卷积神经网络的着色模型。该项工作达到了目前最先进的水平。在我们看来,他们的系统表现从质量上来看是最好的,同时其结果看起来也是最真实的,图 10 提供了对比图。


图 10:着色研究成果对比,来源 Lizuka et al. 2016[86]。上图从上到下,第一列包含的是等待着色的原始单色图像输入。其他的几列展示了 2016 年多个不同研究生成的着色结果。从左到右看,分别是第二列 Larsson et al.[84]、第三列 Zhang et al.[83]、以及 Lizuka, Simo-Serra 和 Ishikawa[85] 的研究成果,也就是图中被作者称为「ours」的那个团队。纵观整个比较,第三行(图中有一群男孩)的着色差异是最明显的。对此我们相信 Lizuka 等人的工作(第 4 列)在着色结果上看是领先于其对手的。


「进一步来说,我们的架构可以处理任何分辨率的图像,这与大多数基于卷积神经网络的现有技术不同。」


在一次测试模型生成图像自然程度的实验中,研究人员向被试者随机提供一张模型生成的图像,并提问:「这幅图在你看来自然吗?」


实验结果证明,Lizuka 等人的方法得到了 92.6% 的认可度,基线水准达到了 70%。要知道以当时的技术来看,彩色照片大约在 97.7% 的程度上看起来是自然的。


行为识别


行为识别任务有两个含义,一个是在给定视频内对一种动作进行分类;最近更多指的是指:算法仅需要观察一部分场景,就可以在实际动作还没出现之前便预测出相关的结果。按照这种视角,我们发现,最近的研究试图将语境因素嵌入算法的决策过程。这一点与计算机视觉的其他领域类似。以下是该领域的部分重要论文:

  • Long-term Temporal Convolutions for Action Recognition[87] 借助卷积神经网络的一个变体和人类动作的时空结构,例如特殊的运动或是持续的动作,来正确识别动作。为了克服对长时间动作的局部最优时序建模(sub-optimal temporal modelling)问题,作者提出了一个长期时序卷积神经网络(LTC-CNN),以此来改善行为识别的精确性。简单地来说,LTC 可以通过观察视频中尺寸较大的部分画面来识别动作。他们使用并扩展了 3D 卷积神经网络,使得动作可以在一个更充足的时间范围内进行表示。


「我们在两个具有挑战性的人类行为识别基准上分别实现了 UCF101 (92.7%)、HMDB51 (67.2%),达到目前最先进的水平。」


  • Spatiotemporal Residual Networks for Video Action Recognition[88] 将两种卷积神经网络的变体应用到了行为识别中,该系统结合了传统卷积神经网络与新近热门的残差网络(ResNets)。这两种方法的灵感来自神经科学关于视觉皮层的功能假设。比如,在视觉中识别形状/颜色与行动是互相分离的。论文的作者通过在两个卷积网络中加入残差连接,让模型有了残差网络的优势。


「这两个网络首先分别会自己执行视频识别任务与最后的分类任务,然后系统会引入 softmax 分值对二者进行融合。迄今为止,这是应用机器学习进行行为识别最有效的方法,尤其当训练数据有限的情况下更是如此。在我们的工作中,我们将图像卷积网络直接转换成了 3D 架构,结果显示系统在两种人类行为识别基准 UCF101 和 HMDB51 上性能大幅提高,分别达到了 94% 和 70.6%」。Feichtenhofer 等人改进了传统 IDT 方法,结合以上两种技术得到了更好的结果。


  • Anticipating Visual Representations from Unlabeled Video[89] 虽然严格上来说这不是一篇关于行为分类的论文,但是它还是非常吸引人。作者提出的模型可以通过分析一个视频内某个动作发生前(最长可达 1 秒前)的画面来预测何种动作将有可能会发生。他们选择了视觉表征而非逐像素分类的方法,也就是说,程序可以在没有标注数据存在的情况下工作,这里利用了深度神经网络可以进行强大的特征学习的这一优点 [90]。


「我们方法的关键思想在于,我们可以训练深度网络,让它来预测未来可能在图像中出现的视觉表征。视觉表征是一个可靠的预测目标,因为它们站在比像素层面高的语义层面来编码图像。然后,我们在预测得到的表征上应用识别算法,从而得出对目标和动作的估计。」


  • Thumos Action Recognition Challenge[91] 的组织者发表了一篇论文,总结了近年来对行为进行识别的一般方法。文章还提供了从 2013 年到 2015 年挑战赛的纲要,以及关于如何让计算机进行行为识别的一个整体理解。遗憾的是(似乎)去年没有举办该比赛,我们希望 Thumos 行为识别挑战有望在今年(2017)回归。


]]> 原文: http://ift.tt/2BvWogm
RSS Feed

机器知心

IFTTT

使 AI 走进校园,客来乐基于学生身份寻找更多应用场景

对于学生党来说,每天都必须随身携带学生证、饭卡、银行卡、现金、图书卡、各种门禁卡等,校内吃饭、购物、借书等,每一样都需要排起长队。


尽管移动支付已普及到每个角落,然而,这股东风并未吹到校园。


「校园是一个受限的支付市场。」客来乐创始人兼 CEO 王伟说。


因为校园的特殊情况,一些专属服务只提供给本校的学生和教职员工。因此,在学校里只能使用校园一卡通,因为校园一卡通是确保这种专属服务的传统手段。


基于学生身份,寻找多种应用场景


根据国家统计局和教育部发布的数据显示,2017 年全国共有在校大学生人数为 2695.8 万。显然,仅就移动支付而言,这就是一个庞大的市场。


以手机取代学生们常用的校园一卡通,帮助校方建立一个基于腾讯旗下微信支付或蚂蚁金服旗下支付宝的校园支付体系,则是客来乐进入校园市场的初衷。


2017年,他们推出了客来乐智能校园卡。据王伟介绍,在手机上下载客来乐智能校园卡,并按照引导完成身份信息填写和验证,就能在校园里实现真正的移动支付。不仅学费、杂费可以借由智能校园卡支付,学校发放的奖学金,补助津贴等同样可以通过智能校园卡系统解决。


然而,即使在同一所学校,教师与学生的折扣也可能不同,因为身份的不同,教学与学生的权限也会有所不同。因而,这就需要定制功能。客来乐智能校园卡则可以根据校方的需求进行额外定制。


在王伟看来,打造基于学生身份的校园支付体系,只是开始。与通用支付系统不同,校园支付体系账户上捆绑了学生的个人信息,比如姓名、学号、院校信息等。这些个人信息的绑定,则带来了更多的玩法,可以借此探索其他的应用场景。


「当你升级换代的时候,它不仅仅是简单地把磁条卡或者 IC 卡换成手机支付体系。因为你的载体改变以后,能叠加更多的业务,使学生享受的服务会与此前完全不同。


举个例子,食堂作为人流量最多,使用频次最高的地方,排队时间长的原因就在于结账时花费时间太长。人脸支付就能解决这个问题。事实上,客来乐推出的人脸支付原型机器就可以自动扫描餐盘,然后结合他们的校园支付体系,从而自动结账。


此外,对于学生而言,每周都有大量的课程安排,记不住怎么办?校园支付体系还能与语音交互结合,从而充当学生的个人助理,随时提醒他们,并供他们查询信息。


「我们的逻辑就是基于校园中学生的身份,围绕这个身份寻找应用场景。」王伟总结道。


技术很重要,但对场景的深刻理解同样重要


据王伟介绍,在他们走进校园的过程中,客来乐智能校园卡获得了大量老师的支持,老师们还会提出更加深入的需求。王伟认为,这些都离不开他们以前的积累,正是如此,他们才能得以深刻地理解应用场景。


客来乐成立于 2012 年 9 月,创立之初推出了移动支付专利产品——客来乐互联网收银台。


近几年,随着移动互联网的飞速发展,移动支付也在快速普及。但对于大量的线下零售商来说,他们自己本身并不具备移动支付的能力,无法与用户的手机进行交互,因为他们的收银台既不具备显示屏,也不具备二维码读头。


客来乐的互联网收银台,则能使传统收银台无需改造的情况下,通过外接这个硬件产品,就能使用移动支付,将传统收银台提升为互联网收银台。通过互联网收银台,客来乐为客户提供包括电子小票、手机支付等各种互联网服务,建立实体店与消费者的链接,提供互联网营销服务。经过多年发展,宜家、百盛、好药师、鲜芋仙、赛百味、欧时力、世纪联华等线下店铺都是客来乐合作伙伴,皆已接入客来乐系统。


「今天我们能做智能校园卡,是因为我们在二维码支付上拥有了大量经验,在二维码支付场景方面,拥有深刻的理解。」王伟说。


然而,要将这些功能都用 AI 技术实现,技术能力是必须跨越的门槛。作为腾讯 AI 加速器首期 25 家入选企业之一,王伟并不担心这点。因为腾讯 AI 加速器会为这些入选企业开放 AI 技术能力,比如图像识别技术和语音交互技术等。王伟认为,作为技术提供方,腾讯 AI 加速器更看重的是入选企业对场景的深刻理解。


「现在所有 AI 使用都是一个单点,叫单点场景,我们做手机校园卡,希望做的是 AI 集成方。在王伟看来,基于学生的身份,解决基于身份的手机支付,将手机校园卡与 AI 结合,从而将 AI 应用于各个场景,这是一个完整的商业逻辑。接下来他们要做的就是,计算投入产出比例,使其恢复到做生意的状态,而非烧钱做实验的状态。


]]> 原文: http://ift.tt/2BuKIdZ
RSS Feed

机器知心

IFTTT

纽约客:「油漆工是兼职,勒死妇女才是正事」——变态连环杀手正在被算法迅速围剿

编译 | 张震 高静宜

来源 | The New Yorker

作者 | Alec Wilkinson



Thomas Hargrove 是一名档案保管员,特别的地方在于,他保管的是谋杀案件的档案。


在过去 7 年里,他一直在收集市政府记录在案的杀人犯。至今,他已经掌握了自 1976 年以来 751,785 件谋杀案的资料。这个统计数据量十分惊人,甚至比 FBI 统计的案件还多了近 27000 例。这是因为,有一些州本该向司法部备案杀人犯的信息,有时也存在报告不准确或者信息不完整的问题。Hargrove 会对这些州提起诉讼,从而获得该州杀人犯的档案记录。


通常来说,谋杀案都是因出轨、群殴、抢劫或打斗而起,Hargrove 自己编写了计算机程序,用于搜寻奇异的谋杀案件。每年,大约有 5000 人犯了谋杀罪但仍逍遥法外,很多人还不止涉及一起案件。Hargrove 试图用代码找到这些人,而这个程序被他称为「连环杀手追踪器」。


2010 年的时候,Hargrove 就开发出了这样一款程序,它可以运行一些简单的算法。当时的 Hargrove 还是 Scripps Howard 新闻公司的一名记者,不过现在这个公司已经倒闭了。当时的算法以杀人犯追责项目(Murder Accountability Project)为基础。那是一个公益项目,由包括 Hargrove 在内的 9 名成员组成,这些人有以前做过侦探的,有谋杀案学者还有一个狂热的精神病专家。Hargrove 负责为他们提供大数据的支持,不过现在他已经退休了。


数据整合之后,算法可以按照方式、地点、时间以及性别将杀人犯进行分类。这个程序也可以观察到一个城市未解决谋杀案的比率,因为一个悬而未决的连环谋杀案会把一个警察局搞得鸡犬不宁。统计显示,如果一个城镇出现了一个连环杀人犯,这个城镇在外人眼中就会比较混乱。


2010 年 8 月,Hargrove 发现,在印第安纳州莱克县盖瑞镇的杀人犯存在一些相似之处。在 1980-2008 年间,当地有 15 名女性被勒死,而且大部分尸体都处在空无一人的房子里。Hargrove 就给盖瑞镇的警察局写了封信,信中描述了相关案件以及杀人犯的活动范围。「这类案例能够反应出该区域连环杀人犯的行动吗?」他问道。


警察局的回复十分生硬。一个助理人员回复称,盖瑞镇没有未决的连环杀人案件。(如果有连环杀人犯在逃,司法部建议警察局应让市民知悉,但一些地方却对此讳莫如深。)对此,Hargrove 极为愤怒。「我连续写了几个月的信。」他说,「我给警察局长和市长都寄了挂号信。」最终,他收到了一名验尸官副手的回信。这名验尸官很久以前就开始怀疑盖瑞镇存在连环杀人犯。她曾试图和警察谈论此事,但被警察拒绝。在看到 Hargrove 提供的案例后,她又补充了三例受害人的情况。


四年过后,与盖瑞镇相邻的哈蒙德镇的警察接到了报案——Motel 6 发生了骚乱,警察到达现场后在浴室发现了一具女尸。这名女性名叫 Afrikka Hardy,19 岁。「他们逮捕了一位名叫 Darren Vann 的人,他涉及多起此类案件。他说自己『终于被抓了』。」Hargrove 这样描述道。「几天内,他带着警察前往废弃的建筑物,发现了六具女性尸体,而且都是被人勒死,手法和在算法中获得的一模一样。」在上世纪 90 年代,Vann 杀了第一名女性。2009 年,他因强奸罪入狱,杀人案件暂时停止。他在 2013 年出狱,按照 Hargrove 的说法,「他杀心又起。」



事实上,研究人员对连环杀人犯的研究就如同研究自然历史标本一样。雷德福连环杀手数据库登记了世界各地近 5000 起案件,大部分是发生在美国,是目前最为全面的记录之一。25 年前,弗吉尼亚州雷德福大学荣休教授 Michael Aamodt 开始收集资料,bian 并着手建立这个数据库。


从这个数据库得知,美国的连环杀人犯中,男性人数是女性的十倍。Ray Copeland 被捕时 75 岁,是数据库中最老的连环杀人犯。他在上个世纪末于密苏里的农场中杀害了至少 5 名流浪人员。最年轻的是 Robert Dale Segee,他在缅因州的波特兰长大。1938 年,也就是他 8 岁的时候,曾用石块杀死了一个女孩。Segee 的父亲经常责罚他,把他的手指放在蜡烛火苗上,而后,Segee 变成了一名纵火犯。放火之后,Segee 有时会隐约看到一个长着獠牙和爪子,头上冒着火光的红脸男性。1944 年 6 月,14 岁的 Segee 在 Ringling Brothers 马戏团找到一份工作。第二个月,马戏团的帐篷就着了火,导致 168 人死亡。1950 年,Segee 因另外一起纵火被捕,他承认自己点燃了帐篷。但几年后,他又拒不认罪,并称放火的时候他完全失去了理智。


数据库统计显示,大多数连环杀人犯都不是特别的开朗,智商平均在 94.5 左右。这些人可以分为几种,有一些人认为自己有义务消灭他们认为不道德或不友好的人,比如吸毒的人、移民以及放荡的女人,这些人被称为「传教士」。「黑寡妇」杀男人,一般是为了继承财产或者获得保险索赔;「蓝胡子」杀女人,要么为财,要么为权。谋杀病人的护士被称为「死亡天使」。「钓鱼者」一般是指偶然遇到被害者的杀人犯,「捕手」则会长期观察被害者。


FBI 认为,每年因连环杀人犯出现的谋杀案件不超过 1%,而 Hargrove 认为这个比率实际上会更高。美国大约有 2000 名在逃的连环杀人犯。「我为什么会知道呢?」他说,「几年前,我结识了一些 FBI 的人,他们也一直在关注究竟有多少 DNA 比对成功但仍在逃的杀人犯。」结果大约有 1500 名杀人犯,这个数字比记录在案的人数多了 2%。「而这些还只是他们能够获取 DNA 的案例,」Hargrove 说,「通常情况下,杀人犯是不会留下 DNA 的,能获取 DNA 信息绝对算是幸运的案例。2% 只是最低的数字而已。」



Hargrove 今年 61 岁,他个子很高,身材清瘦,留着白色的胡子,给人留下一种生性多疑的感觉。他和妻子、孩子住在弗吉尼亚州的亚历山大港。他每天要走 8 英里的路程,有时是走到弗农山庄,有时是围着波拖马可河走,边走边听着有声书籍,通常听得都是奇幻故事。


他出生在曼哈顿,在他还小的时候,父母搬去了威彻斯特郡的约克镇。「四岁之前,我一直都住在环河路上。」他说。「我记得有一天,我向妈妈展示我在游乐场用雪糕棒做的弹簧刀,其他的我只记得我住在约克镇。」


Hargrove 的父亲写过一本有关机械计算器的使用手册。Hargrove 在密苏里大学学习期间,他主修计算新闻学和舆情研究。在这里,他学会了一些实践手段,例如用于进行民意调查的随机数字拨号理论,并且受到 Philip Meyer 著作《Precision Journalism》的影响。这本书鼓励新闻工作者学习社会科学的调查方法。


1977 年,他毕业后获得了在《伯明翰邮报》工作的机会,开始进行民意调查,或是做一些其他报社发文所需的东西。事情的转机发生在,报社开始需要罪案方面的报道,于是他便投身于此。1978 年,Hargrove 目击了第一起谋杀案件,那时一家便利店的老板被抢劫犯枪杀。还有一次,警察枪杀了一名 16 岁的非裔美国女孩,当时社会爆发了一阵骚乱,他对此进行了报道。刚到对峙现场,他就被一个站在水塔上的醉汉用来复枪射击,子弹打到了他脚边的沙砾上。他也报道过 John Lewis Evans 被执行死刑的新闻,他是自 20 世纪 60 到 70 年代最高法废除死刑后,阿拉巴马州第一个被执行死刑的犯人。「在阿拉巴马州,当局采用电椅处死犯人,这种电椅因为绘有鲜亮的黄色,被称为「黄妈妈」(Yellow Mama),」Hargrove 说道,「上一次执行死刑还是在很久以前,人们已不知道应该如何操作这种器械了。第一次操作的时候,电流过大,直接导致电线管道着火。现场哭作一团,我也因此失眠了好几天。」


1990 年,Hargrove 搬到了华盛顿特区,为新闻机构 Scripps Howard 工作。「我最初的目的是想利用数字让世人震惊。」他研究社保机构的死亡人口档案(Death Master File)。「一天时间就可以搞定了。」Hargrove 解释道,他发现档案中有一些人几年以后又被移除了,因为他们被错误的宣布了死亡。从采访中得知,这些人经常突然间就被冻结了账户,无法申领引用卡,贷款,而且因为无法提供背景信息,也找不到工作。在对比邮政编码和政府资助贫民儿童的联邦补贴发放地之后,他发现三分之二的补贴实际上流向了郊区的学校。「他所有的工作都是通过非常聪明的逻辑和编程实现的,」Isaac Wolf 说道。Wolf 以前是一名记者,办公桌和 Hargrove 的挨着。「他有各种新奇的想法,创新的方法,还会脚踏实地的去收集和分析数据。」


2004 年,Hargrove 被委托调查一下卖淫相关的事情。为了了解哪些城市出台法律禁止这一行为,哪些城市没有出台相关的法律,他申请要一份 FBI 每年编撰的统一犯罪报告(Uniform Crime Report)。然后他收到了一张 CD,包含 2002 年以来的大部分报道。随 CD 一块寄来的还有一份 FBI 编写的 2002 年补充谋杀报告,包括所有向 FBI 报告的谋杀犯,受害人的年龄、人种、性别、种族,以及杀害的方式和当时的场景。Hargrove 看到这些东西时,他想到的第一件事就是「是否有可能教会计算机识别连环杀人犯。」Hargrove 表示,六年来,他给 Scripps Howard 每一位编辑都讲过,他想使用计算机找到连环杀人犯,而所有的回答,无一例外都是,「你在开玩笑吧?」


2007 年,根据疾病防控中心有关婴儿死亡率统计的数据,虽然加利福尼亚婴儿的人数比弗罗里达州多了很多,但是弗罗里达州的婴儿因突然窒息而死亡的数量却比加利福尼亚高了很多。为了弄清楚原因,Hargrove 对婴儿瘁死综合症(Sudden Infant Death Syndrome)进行了调查。在接下的一年,Hargrove 采访了验尸官和病理学家。「很多人第一句话就是,『说实话,我并不知道该怎么说,但婴儿猝死综合征的患者并没有出现像这样的情况』。」他说道。Hargrove 因此推断,婴儿猝死综合征并不是诊断的问题,也不是一个神秘的疾病,而是父母将孩子放在婴儿车中才导致婴儿窒息而死。问题在于弗罗里达州将这种死亡归因于突发性的窒息,而加利福尼亚将其视为婴儿猝死综合征。这件事经他报道后,疾控中心推出了一个婴儿突发死亡案例登记,对每起死亡进行评估。新泽西州的参议员 Frank Lautenberg 与 Hargrove 进行了会面,然后提出了猝死数据改善和意识法案(Sudden Death Data Enhancement and Awareness Act),这一法案由美国前总统奥巴马于 2014 年签署。婴儿猝死综合征事件后,Hargrove 在「新闻行业的名声大噪」。Hargrove 告诉老板,他仍然想要尝试训练计算机识别连环杀人犯,而这次老板说,「我给你一年的时间。」



Hargrove 开始申请获取 1980 到 2008 年间的谋杀案例报告,这份报告覆盖了超过 50 万名杀人犯。在一开始,他就知道「计算机并不是万能的」。他说:「我可以根据数据看到受害者的信息。」然后,他着手编写算法,希望输入一个定罪的杀人犯,就可以输出受害者的信息。他选择把 Gary Ridgway 作为测试案例。Gary Ridgway 是 Green River 地区的一名杀人犯,他从 80 年代初开始犯案,在西雅图谋杀了至少 48 名女性,然后把尸首丢在河岸边。Hargrove 看了一下 Ridgway 的照片,这个人看起来有气无力,一脸很丧的样子。「连环受害人是什么样的呢?」他写道。


编写算法是一件很繁重的工作。「他写了一些代码,但似乎需要遍历所有的档案记录,」Isaac Wolf 说道。,我们没有昂贵的计算机设备,因此代码需要运行好几天。不过他一直在进行改善工作。」


2001 年,Ridgway 因 DNA 比对成功被捕,当时他在 肯沃斯的卡车厂干着油漆工的工作。他已经工作了 32 年,正打算辞职不干了。他告诉警察,勒死女性才是他真正的职业。「我是通过窒息让人死亡,我很擅长干这种事。」他说。Ridgway 的第三任妻子在知道丈夫的行为后大为震惊。二人在聚会上相识,已经结婚有 17 年了。她说,他对她一直就如同新婚夫妻一样甜蜜。Ridgway 本想杀了他前两任妻子,但担心会被抓到。他杀害的人大多是妓女。如果他曾为他杀的人花过钱,那么他就会觉得,虽然他杀了这个人,但他毕竟用钱补偿过这个人了。


Hargove 每天都要总结上一次失败的原因。他将谋杀分为不同的类型,因为他曾被告知,连环杀人犯经常会勒死或者用钝器杀死受害人,因为他们希望看到受害人更多的反抗。他挑选女性受害者着手测试,原因在于 FBI 报告称被连环杀人犯杀死的人中,70% 是女性。每次测试都要花费一整天的时间,他也不知道到底哪种方法才是有效的。有时候,唯一看起来比较有希望的变化结果却是「无法解决」。「在失败了 100 次后,算法总算稍微有了点起色。」Hargrove 说道,他的右手大拇指和食指紧紧贴在贴在了一起,「我开始把术语分的更加具体,按不同的要素进行分类,如女性、工具、年龄和地点。」


采用了这种方法后,算法会将谋杀案件分成大约一万个不同的小组。波士顿、女性、15-19 岁、手枪,这些可能分成一组;而新奥尔良、女性、20-50、勒死可能又是另外一组。尽管「无法解决」的问题仍然存在,有时仍缺乏有效性,不过,Hargrove 仍让计算机将谋杀案结案率极低的地区结果呈现了出来。西雅图在这方面排第三,警察无法得知部分女性受害者的死因,因为尸体在野外待的时间太久,验尸官无法判断出受害者的死因。Hargrove 知道,是计算机最终发现了被 Ridgway 谋杀的人。



通过查看受害人和杀手之间的地理关系,Hargrove 偶然想到了称为「地理侧写」的原则。这一原则由 Kim Rossmo 提出,他以前是一名警察,现在是德克萨斯州立大学司法学院的一名教授。1991 年,Rossmo 在日本的一列火车上偶然提出了一个等式,就是根据犯罪活动的发生地和尸首被发现的地点,推测连环杀人犯的居住地。纽约的一名侦探接受采访时表示,「连环杀人犯习惯在同一个地方杀人。他们在一个大致的区域寻找下手的对象。」而一般来说,下手的区域离住所都会很远,以便掩盖自己的居住地,但也不会去到一个完全陌生的地方。犯罪分子去的地方越远,作案的可能性就越小,这种现象被犯罪学家成为「距离衰减」。


Rossmo 曾利用地理侧写追踪过恐怖分子。他仔细研究了恐怖分子居住的地点,他们储藏武器的地点,以及打电话的地点,从而发现犯罪活动爆发的地区。他也与动物学家合作,观察大白鲨的狩猎模式。最近,Rossmo 通过研究街头艺术家 Banksy 将早期作品遗留的地方,找到了证据可以支持英国《邮报》在 2008 年的一个推断。该报纸称,Banksy 是一个来自英格兰布里斯托的中年男性,名字叫 Robin Gunningham。


「在谋杀案调查中,当你从一片片谜团中走出来后,摆在你眼前就都是信息了,」Rossmo 这样说道。「在任何一起连环杀人案中,警察都会有数千甚至数万的怀疑对象。」在 Green River 案件中,警察有 8000 个怀疑对象人。「那么从哪里开始呢?我们知道有很多找到罪犯的途径。通过分析杀人案发生的地点,尸体被发现的地点,就可以创造一个大概的分布。」在《地理侧写》这本书中,Rossmo 提到,研究证明右撇子罪犯在逃跑的时候喜欢左转,不过会把证据向右边扔。很多的罪犯藏在建筑物里面时,则倾向于呆在外墙附近。


此前也有过使用计算机寻找杀人犯的案例。Eric Witzig 是一名退休侦探,也是 FBI 前情报分析员,从事 FBI「暴力犯罪逮捕计划」(Violent Criminal Apprehension Program),这是一个由名叫 Pierce Brooks 的洛杉矶凶杀案侦探发起的项目。Witzig 讲述,在 50 年代,Brooks 经历过一起有关「孤独灵魂杀手」Harvey Glatman 的案子。Glatman 是一名收音机、电视修理工,也是一名业余的摄影师。他邀请年轻的女性做模特,告诉她们说照片将用到侦探杂志上。然后,他将受害者用绷带绑起来进行拍摄,但拍摄完后却并不将绷带拿掉。「女性受害者不仅被绑了起来,而且身上被绑的痕迹深刻且清晰,这说明施暴者用了很大的力气。」Witzig 说道。


Brooks 开始研究一些采用同样杀人手法的谋杀犯。他将所有的谋杀记录写在 3×5 英寸的卡片上。20 世纪 50 年代后期,在对计算机产生兴趣后,他要求洛杉矶的警局为他买一台计算机,但却被告知计算机的价格太高。1983 年,FBI 提供给他一份在 Quantico 的工作并为他配备了一台计算机,然后他便向国会提出了利用计算机数据库追踪谋杀的想法。这个项目作为调查的补充存在,但侦探不用负责这件事。「首要问题就是暴力犯罪逮捕计划的报告形式。」Witzig 介绍道,Brooks 想要记录谋杀案的每一个要素,结果出现了超过 150 个问题。「当然,也出现了使用者的抵触。」Witzig 说,「没有人想要从事大量的文书工作。」他补充道,该项目拥有「世界上最聪明的执法思想专家,但我们的行动只存在于想法上,因为他们失败了。」



杀人犯追责项目本身也具有局限性。算法是依靠地点作为关键词进行搜索,但那些流荡范围较大的杀人犯却根本无法查出来。此外,还存在漏报的情况,Hargrove 将之称为弗林特(Flint)效应:一些城市,如密歇根的弗林特,在处理谋杀案上存在渎职,久拖不决,让人误以为遭遇了连环杀人案件。


一些精通统计学的人也可以在杀人犯追责项目的网站上找到这个算法并运行它。举个例子,如果有人想知道在我们居住的地方有多少案件未破,他们可以使用网站上的「搜索案件」功能。新奥尔良的 Deborah Smith 就经常会使用杀人犯追责项目的搜索功能,她也是业余侦探在线交流论坛 Websleuths 的版主。「我存有全国被谋杀和失踪女性的名单,对存在联系的谋杀犯我会进行重点标注。」她说道,「我有几乎所有州的名单。如果我发现了一个杀人犯,比如 Israel Keys,这个杀人犯 15 年前居住在西雅图,我就会寻找西雅图的杀人犯以及阿拉斯加的一部分杀人犯,因为他也有可能会住在那里。查看一下是否存在警察遗漏的情况。」她补充道,「杀人犯追责项目极为有用,没有任何其它的东西能与之相提并论。」


杀人犯追责项目的成员还没有决定如何处理该算法的结果。但对 Hargrove 来说,已经发现了一些道德问题和一些实际的困难。「我们需要弄清楚我们参与的规则,」他说道,「在哪种情形下,我们可以报警?」几个月以前,Hargrove 告知克里夫兰警方,有一个连环杀人犯涉及 60 起谋杀案,受害者全部都是女性,或者从手法来看,可能有三个连环杀人犯。这其中,有 12 名女性被证实从事卖淫活动,她们的尸体在两个不同的地区被发现。Hargrove 无法与克利夫兰警方进行任何的沟通交流,因为杀人犯追责项目的规则要求,这种信息应受到严格保密。鉴于 Hargrove 的分析,警察表示「他们成立了一个小型的调查组负责调查几个未决的谋杀案」。警局特别侦查小组的负责人 James McPike 告诉克利夫兰报刊《Plain-Dealer》,「我们会与该小组协作,帮助我们弄清楚可以做哪些事情。」


Hargrove 对该调查很满意,但他也担心事情会走偏。「要是逮错了人,会被起诉吗?」他问道,「2010 年,当我还是记者的时候,我联系过好几个警察局,因为我想看看算法是否有效。现在我知道了它确实有效,这是毫无疑问的。在某些情况下,我们可以说,这些受害者有很大可能性是被同一个杀人犯杀死的。 2010 年,我背后有一家很大的媒体公司,有律师,媒体保险做支持。而现在,我所从事的是一项公益事业,银行存款只有 14000 美元,9 个成员,没有保险。」


杀人犯追责项目为公众带来的最大好处之一就是让人们意识到美国还有多少杀人犯仍然在逃。1965 年,杀人犯被捕的概率超过 92%,2016 年,该数字不到 60%,为历史最低。洛杉矶的比率最高,达到了 72%,底特律最差,只有 14%。Enzo Yaksic 是杀人犯追责项目的成员之一,也是美国东北大学非典型谋杀研究中心的主任,他表示,该项目「展示了逍遥法外的杀人犯显然是有的。」


Michael Arntfield 是另外一位杀人犯追责项目的成员,也是西安大略大学的教授。他负责大学的一个悬案协会,这个协会关注算法的发现。40 年间,亚特兰大出现了 100 个女性杀人犯,大部分受害者都是非裔美国人,而且都是被勒死的。Arntfield 从亚特兰大警方获取了 44 名女性的名字,然后对这些受害者又进行了深入的了解(研究受害人的背景以期发现她们是如何见到杀人犯的,这一原则被成为被害者研究)。Arntfield 和同事将受害人分为两组,其中很多人可能都曾做过妓女。Arntfield 从报纸上获悉,有两个已认罪的犯人杀人手法极为相似,二人均已入狱。亚特兰大重案组同时也负责谋杀案的负责人 Adam Lee 表示,警局尚未将这些谋杀犯与一个特殊的杀人犯联系在一起,但他认为杀人犯追责项目是一个有用的工具,「非常感兴趣,希望能和 Arntfield 坐下来聊聊。」


Hargrove 接受采访时表示,他希望侦探可以自己使用这种算法将案件进行联系,利用杀人犯追责项目解决谋杀案。此外,他正在考虑再开发一个网站用来追查纵火犯,他已经开始收集火灾的数据了,不过具体何时上线还不确定。「连环纵火和连环杀人存在一定的联系。」他说,很多罪犯是从放火开始走上犯罪这条道路的。」


「我们的初衷是收集尽可能多的犯罪记录。」Hargrove 停顿了一下,「但是没想到这些记录的作用这么强大,竟然可以结合算法找到连环谋杀犯。」



]]> 原文: http://ift.tt/2AFs6ei
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...