2017年10月1日星期日

通过Crowd Layer,利用众包标注数据集进行深度学习

本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端到端的训练。该方法可获取不同标注者的可信度和偏差,并在不同数据集上取得最优结果。



论文链接:http://ift.tt/2x96kd3


摘要:在过去几年中,深度学习显著提高了机器学习各个分支的先进技术水平,给机器学习领域带来了变革。然而,随着监督式人工神经网络的规模不断增大,对大型标注数据集的需求量也越来越大。近期,众包成为以可扩展的方式标注大型数据集的一种高效、廉价的解决方案。但这通常需要整合来自不同专业水平的多个噪声标签贡献者的标签。在这篇论文中,我们针对的就是深度神经网络的众包训练问题。首先,我们将介绍最大期望值算法(EM),这种算法同时学习网络中的参数和不同标注者进行分类设置的混淆矩阵。然后,我们提出了一种新型的通用众包层(crowd layer),这个层可以使深度神经网络用反向传播的方式,直接利用不同标注者的噪声标签进行端到端的训练。我们的实验结果表明使用这种方法可以内部获取不同标注者的可信度和偏差,并在不同设置(如分类、回归和序列标注)的各种众包数据集上得到最优结果。



图 1. 具备 4 个类别和 R 个标注者的分类 CNN 的瓶颈结构



表 1:不同分类数据集的准确率结果:狗 vs. 猫和 LabelMe



图 2. 标注者的真实敏感度(true sensitivity)和真实特异度(true specificity)与狗 vs. 猫数据集中的权重矩阵 w^r 对角线元素的对比。



图 3. 权重矩阵 w^r 和对应的混淆矩阵的对比。



表 2. MovieReviews(MTurk)数据集的训练结果。



图 4. 学得的 b^r 参数和标注者的真实偏差之间的关系。



表 3. CoNLL-2003 NER(MTurk)数据集的训练结果。

]]> 原文: http://ift.tt/2x8s4G8
RSS Feed

机器知心

IFTTT

当网络性爱进化到算法时代,付费约会网站每年盈利超过十亿美元

编译 | 王宇欣 藤子

来源 | wired


难以估量,互联网对世界的影响之深远。


它不仅点燃了一场信息的革命之火,使个人、团体、政府与上亿人的沟通成为了可能。然而,在互联网的萌芽阶段,就有少数人预言道,互联网将成为人类建造的最大的手淫机器。


人们会在网络上浏览性爱的内容,也会在夜深人静之时,匿名搜索一些跟禁忌之恋有关的内容,这些人隐藏之深,连他们的网络地址都很难找到。还有一些人会「披上别人的马甲」,改头换面,构建另一个身份。


J. C. Herz 是一位科技领域的作家,她在 1995 年出版的 Surging on the Internet 一书中指出,广袤无垠的互联网给人们提供了现实中并不存在的性别选项,比如,虚拟世界黏巴达社区(LambdaMOO)为用户提供了 6 种不同的性别选择,分别为:男性、女性、中性、无性别、皇室(旧时国王或女王的自称)和 natty,对 『splat』无所谓的人。在那里,女人和男人会互相调换身份,还会与不同性别的网络伙伴进行虚拟性爱。这种弹性规则让人们拥有了幻想和角色扮演的自由。


随着数字化时代的爆炸,多样的性爱大行其道。


在 80 年代后期和 90 年代早期,网络性爱有其隐含意义:虚拟与现实的纽带。从理论上来说,虚拟现实性爱,是人们穿上特殊的服装/虚拟手套/带着花彩头饰,远程诱惑其性伴侣,进行模拟性爱,有时候也伴有视听特效。


计算机生成图像技术 (CGI) 在 1990 年是电影制作方面的一个巨大突破,网络性爱则是对 stim 的 模仿。有一段时间,它有一个尴尬的名字「远程电动性玩具(teledildonics)」。在那时,Cybersex 完全只是一个噱头罢了。1997 年,Mike Myers 拍了一部类似芭芭丽娜(Barbarella)、普特尼·斯沃普(Putney Swope)、睡美人(Sleeper)和液态的天空(Liquid Sky)的电影,探索机器人性爱理论,在他的摇滚六十年代(Swinging Sixties)中恶搞了王牌大贱谍(Austin Powers:International Man of Mystery)。但是现在我们都可以通过试管培养婴儿,为什么不让极客们从半人马星带回他的家具呢?


从那之后,teledildonics 才被称为 cybersex/虚拟性爱/网络性爱。这些词汇大多来自有思网(Usenet)和新闻组(newsgroups)。在一个名为 MUDS 的幻想论坛,它有时也被称为 TinySex,Sherry Turkle 在其 1995 年出版的 *Life on the Screen: Identity in the Age of the Internet,就描述了早期的这种「以计算机为媒介以性爱为目的的交流」。


随着光盘和影碟的兴起(交互式软盘可被分为磁盘驱动型或游戏机控制型),用户可以在性娱乐游戏中下达简答的命令并选择不同的方案或结局。网上也有供用户上传性爱故事的论坛(也可以添加其他的故事),而且很多故事都是连载的,这吸引了大批读者。还有一些刚刚兴起的网站会盗取印刷的色情图片,然后作为自己的图片上传到网上;有虚拟的脱衣二十一点网站;还有一些网站的网络模特会从纸盒大小的洞里弹出来,她们会对一些键盘指令作出反应,比如对「把那些渔网袜脱了怎么样?」这种指令的反馈。互联网开始迎合各种形式的性爱活动。


据福布斯报道,截止 90 年代末期,一共有五十万个性爱网站存在,平均每周会出现 100 个新的网站,这些网站通过广告、产品以及在网站上贴出其他更具诱惑性网站的链接而获得不菲的收入。到 2000 年,色情产业仅在互联网商业方面的收入每年就可达到二十亿美元。


这些网站提供虚拟色情服务。大多数都用来手淫(autoerotic)。这种单独的互联网性爱,大多数人都对其持暧昧的态度,认为有更少的情感纠葛并且很少带来麻烦。一个人能够如此高效的满足自己,那为什么要对别人的需求横加阻碍呢?对于很多网络用户来说,这种人为的产物确实可以代替现实:网络性爱没有达成相互间的联系,它是一种自我的释放。但是网络性爱带来的并非只有这些。


对于数百万其他人来说,最初的网络性爱(cybersex)为他们带来了真正的婚礼,让他们之间更加亲近。两个陌生人之间互相交流,通过在键盘上打字来模拟成伴侣,可以在一个全新的平台上体验实时互动。互联网性爱促进了自我价值。它为被理论限制的伴侣提供了多样性。它的虚拟特性使「虚拟背叛(online cheating)」更能被一个人的真实生活中伴侣或自身的良知所接受。其附属的匿名功能更是让人兴奋,也更让人容易摆脱日常的约束。


而对于许多用户来说,因为匿名带来的安全性战胜了真实的体验,毕竟通过电子通信沟通不可能染上性病。


骗子


最早的关于互联网性爱的可怕的故事发生在The WELL 社区。Susie Bright 是西海岸性女权解放运动的领袖,在 1990 年代早期从On Our Backs 的编辑职位离职。她第一次上网是因为在计算机公告板上听过了名为*The WELL 的社区上的人们参加了网络上「我为什么喜欢 Susie Bright 的讨论。


在通过一系列采访的和电子邮件,The WELL 就像一个闪闪发光的崭新的玩具吸引着每一个媒体人,也包括 Bright。在这个社区上,有一个只有女性能加入的私人讨论组。


「在 The WELL 上确实有很多女性,对于一个互联网小组来说,这是一个很惊人的数字。这也是 The WELL 这么酷的原因之一。」Bright 说,「但是我一直都没参与过这种小组,计算机被认为是一个男性的领域。这个私人的女性讨论组—很爱讨论一些八卦以及我们的私人生活,这些东西我们绝对不希望在公众场合被别人知道—一些人则开启了一个话题 『That Son-of-a-Bitch。』


「听起来挺厉害的,是吧?」她笑道。


「这个女人讲了故事,说她是怎样在 The WELL 上遇见这个美妙的男人的,这个故事深深地触动了我,他们就像是天生的一对。但在这个故事结尾,就像你想象的那样,男人露出了獠牙,他是一个骗子。他看起来是那么真诚,对她也很感兴趣,说着『我们要去约会了』之类的话,然后他就有了一些紧急情况需要她寄些钱过去。这就是一切转折的地方。但是那时候,她深爱着他,沉醉在他们那些美好的愿景中:他们会有一场电话性爱;他们还能在网上做很多事。所以当他开始向她要钱的时候,她甚至都没有意识到一切的到来。」Bright 回忆在社区上发生的事情。


Bright 记得另一个 WELL 参与者插嘴说的话。「那个女人打断了我然后说,『我身上也发生了同样的事情,我没有告诉任何人,这件事太让人尴尬了,而且也难以启齿,我感觉我就像一个傻子。所以这样的事情才会发生在我们身上吧,我们都属于过于自作聪明的人,计算机天才女性,这件事情怎么会发生在我们身上呢?』她们相互比较了一下,这是同一个男人。」当她们把这个男人的名字公布在 The WELL 更大的社区上时,Bright 回忆说,「这件事让人们群情激奋。她们揭发了他。这个男人对很多其他的年轻女性也做了一样的事情,这太恐怖了。」


Bright 回忆了当时她的反应:「我就那么坐在我的键盘前面,狠狠地把咖啡摔了出去,我几周前才和这个男人在纽约做过爱。在现实中。我实在是太尴尬了,不像其他人,我没有给他钱。我和他做爱了。我没有那么疯狂地爱上他。我当时在进行小说的巡展。和他离得很近。是的,他就是一个狂热的粉丝,他告诉我他有多么想要和我见面,得知我要来纽约的时候他愿意为我做一切事情。然后我说,『好吧,那我们来见一面吧。』他在新泽西。这个男人身后有那么多为他疯狂的女人。据我所知,他是我遇到的第一个网络混蛋。」


更多的自由


互联网有消极的一面,自然就会有积极的一面。我朋友 Stephen Mayes 是一位受人尊敬的图像编辑师,他坚决认为互联网对很多男性同性恋的性生活和伴侣们有着巨大的积极影响。「在酒吧我从未与任何一个男性搭讪,这让我非常难过,」在曼哈顿东村的一家地下酒吧里,Mayes 喝醉后说出了实情。「互联网让我重新认识了自己。之前在那些同性恋酒吧中总是会有一群法西斯极权主义的家伙:一般都是满身肌肉,肩膀带着那些东西的。我不是那种肌肉男。所以在酒吧,我总是很怕,很怕被拒绝。随着互联网的出现,我深深地坠入了那个世界,我相信有人会接受我的。互联网释放了我的所有恐惧。它给我以自由,让我可以和男人约谈,我之前从未有过这种体验。」


也许有人认为,对于男性同性恋们的刻板的性审美,数字化时代能做的很多。他坚决认为,「同志世界似乎非常适合这种共享的理念。」「这是一个开放的世界,就像是网络一样。它有自己的优点:开放的关系,共享的伴侣等等。过去,我们总是要偷偷摸摸地在地下互动,但是一旦脱离了社会的约束,我们就能拥有自己的自由。」


在许多方面来说,早期的数字化领域有自己的特征:隐私性,特定成员性社会(有自己的语言、规范和自由的风气,不为外人所知)。


Mayes 回忆道,在同一时间,1990 年代展开的数字摄影的革命对一些醉心于可视化性信息的人来说,无疑是个好消息。这些人沉溺于交换私人照片以及观看诱惑性的家庭性爱所带来的愉悦之中。他说,十年前,许多男性同性恋都对宝丽来一次成像(Polaroids)情有独钟(无需处理即可出片),他们担心将交卷带到街角的杂货店或是那种需要等一个小时才能出片的照相馆会给自己惹上麻烦。Mayes 说,「这是一种社会的耻辱,并且更重要的是,把胶卷带到冲洗处所引发的法律问题。在 2000 年以前,鸡奸在很多地方都是违法的,比如德克萨斯州。所以数字摄像机解放了人们。」


这些有关隐私的数字化照片可以很容易地进行电子交易。Mayes 提醒道,在互联网的早期,「数字化性图片是非常私人的,你持有这些图片,把它们放在你的私人计算机中,与其它人进行分享。没有这样的技术!在 90 年代后期,这一切都变了。如果你想,你就能将张片放在网上吸引伴侣,你也觉得这是隐私。你需要在后台注册姓名。实际上,你正在向和你一样的人打招呼。但是这里存在一个误解,你以为你在向一个非常私密的俱乐部提供信息。事实上,任何人都可以登记,此外,你可以下载照片,然后突然你自己照片就会在网上疯狂的传播。这就是这些网站给我们带来的好处,同性恋和异性恋或者别的,我们根本没想到,我们个人的照片会成为公开展览品,并且随时可能失去控制。」


网络约会


对于很多人来说,互联网就像是一个虚拟的单身酒吧。在这个最大的约会场所,化学(两性之间的火花)也会被代数所代替。被设计出的算法通过包含会员喜好的庞大的属性数据库进行区分和并按照潜在伴侣的成功率和关系的长久度进行排名。个人用户会与其可能约会对象一起被列在一个名单中,缘分到来的时候,也许就能成为一对。


当然,配对服务已经存在了几十年了。但是互联网使这种人工诱导的互动变得更加体面。逐渐地,新的模式开始变得越来越好。在数字化的时代,单身人士,不论年纪,都开始接受网络约会,人们对网络约会的认可度逐渐提升,认可其安全性及高效性。事实上,算法和筛选过程赋予了其权威性。(在当时,专栏记者 Michael Wolff 将网络约会形容为一种全新的、非同寻常的求偶方式:「一种完美的,体面的,不起眼的事情。」)通过对比较,单身场所、酒吧实在是太愚蠢了。


约会网站正在兴起。这种 90 年代出现的现象彻底革新了如今城市居民结合、定居的方式,据纽约客 Nick Paumgarten 报道,「付费约会网站」每年盈利超过十亿美元并且已经成为「第三种最常见的约会方式。(前两者是『通过工作/学校』和『通过朋友/家庭』)。


随着交友网络公司的增长,这些网络约会场所已经转型为更广泛的联系场所。这些是初创公司的社会网络,从文化的广泛性来讲,他们比交友网站更具影响力。


社会媒体不仅有助于鉴定个人的个性和性表现力(在潜在的追求者、朋友、陌生人甚至是可能的老板眼中塑造一个人在真实世界中的声誉和网络态度),还对社会互动、言论自由和政治变革等有长期的影响。像 TheGlobe.com 和 SixDegrees.com 等服务(在 Friendster、LinkedIn、MySpace、Facebook 之前)是大量用户聚集交流、交换分享兴趣、爱好或背景等信息的网络中心。


当然,性在社会媒体的起源中一直处于中心位置。「我们经常会忘记之前在社交网络上到处都是关于性的条条框框,」我朋友,摄影制片人 Rachel Winter 说。「Facebook 建立了一种为女性外貌打分的方法。从那个起初为了女同学而构建的网络一直到之后的一切,包括所有的起伏。在这个舞台上,我会说:让我们松口气,禁用社交媒体 5 年的时间。我们都会变得更好。」


]]> 原文: http://ift.tt/2x7fag8
RSS Feed

机器知心

IFTTT

拒绝朋友圈旅行,这10本数据科学必读书才是「打开假期的正确方式」

编译 | 邱陆陆

来源 | BRIDGEi2i


打开假期的正确方式是什么?出去玩,到处人山人海「堵得你没商量」,看朋友圈旅行,总是不过瘾。那不如窝在家里,「静静地」看完这10本 BRIDGEi2i 基于亚马逊和 Goodreads 社区中的读者评论和点赞,评选出的畅销数据科学必读书。

这些书不只告诉你这个行业的运作方式,还能帮助你高效地做好日常工作。不只向你解释数据科学的点滴,也不止步于告诉你如何进行分析,而是教给你,讲故事的艺术。


不管你是新手还是老手,这些书都会让你成为一位更优秀的分析领域专业人士,读完腰不不酸腿不疼升职加薪到「没朋友」。



Data Analytics Made Accessible,Anil Maheshwari 著


面向对象:几乎不知道什么是数据科学的新手或实习生


关于作者:Anil Maheshwari 在管理实践领域拥有超过 20 年的经验,包括业务开发、市场营销、全球品牌、社交媒体、项目管理、IT 咨询和培训。


推荐理由:这本书带你过了一遍数据分析的所有主要的话题和考量。书中有问题、例子和练习题可以帮助你深入地了解每一个主题。这本书很易读,内容也很丰富。它用具体的例子讨论了所有重要的内容,并吸引读者加入数据分析领域。


读者感想:这里有您想了解的关于商业智能和数据挖掘的一切。有大量你应该背下来的要点列表。



Storytelling with Data: A Data Visualization Guide for Business Professionals,Cole Nussbaumer Knaflic 著


面向对象:想要像设计师一样思考的数据可视化专家


关于作者:Cole Nussbaumer Knaflic 能将数据变成艺术品。她是一位广受欢迎的博主。她的研讨会和演讲都受到世界范围内数据领域的专业人士、公司以及慈善组织的好评。


推荐理由:如果你正在试图创造或者设计你的数据 dashboard,那么你绝对应该好好读读这本书。本书告诉你如何讲述数据背后的故事。通过这本书,你将发现讲故事的力量,以及如何让数据成为 dashboard 设计中的关键元素。在每一章中,作者简要地讨论一个商业场景,然后将 dashboard 分解成组件,分析哪些工作很有效,哪些可以做改进。这本书展示了如何超越传统的工具,使用你的数据来创造一个引人入胜、信息丰富、引人注目的设计。


读者感想:让自己的所有观点圆融自洽不是一件容易事。Cole Nussbaumer Knaflic 在她的第一本书中就实现了这一点。她提倡清晰和简明,而她的书就是清晰、简洁、实用的。如果你是一个初学者,或者你在日常工作中需要用 Excel、Tableau、Qlik 等工具制作图表,这是一个开始学习核心原则的好地方。  ——Alberto Cairo,迈阿密大学的可视化教授,The Functional Art 一书的作者



Too Big to Ignore: The Business Case for Big Data by award-winning,P. Simon 著


面向对象:非数据分析领域的专业人士,但是想要将数据分析应用到自己的业务中


关于作者:Phil Simon 有丰富地把全是术语的技术信息和专业知识转化为简单平实的语言的经验。他曾经是 EA,Cisco,Zappos 和 Netflix 等公司的发言人。


推荐理由:这本书告诉你为什么大数据是企业的灵丹妙药。作者向想要了解大数据技术的好处的管理团队和组织给出了很多平实的建议。这本书里有很多世界各地的大数据专家如何解决问题的例子、案例研究和观点引用。对于 CEO、企业主和行业领导者来说,这本书都很值得读。这本书可以为您的组织提供将数据转化为智能,将智能转化为行动计划所需的驱动力。


读者感想:越来越多的企业家、投资者和客户谈论大数据,但我们反而越来越难以理解这个短语的含义。Phil Simon 为大数据做出了很好的定义,并为那些通常被归为「大数据」类别的想法给出了明确的商业案例。  ——Foundry Group 的 管理总监 Brad Feld



Performance Marketing with Google Analytics,由 Sebastian Tonkin,Caleb Whitmore 和 Justin Cutroni 合著


面向对象:希望通过分析来提升营销绩效并改善品牌美誉度的 CMO


关于作者:Sebastian Tonkin 是一名企业家,是 Google Analytics 团队的前成员。Caleb Whitmore 是 Google Analytics 顾问和 Analytics Pros 的创始人。Analytics Pros 致力于帮助用户更好地使用 Google Analytics。Justin Cutroni 是 Google Analytics 研讨会组织者,热门博客 Google Analytics Talk 的作者,也是一位帮助公司了解如何从 Google Analytics 获得最大价值的分析师。


推荐理由:作者全面地阐释了如何通过 Google Analytics 实现你的数字营销目标。他们从与绩效营销策略的相关概念解释开始,逐渐给出更精确的分步分析以及应用实例。你会在书中找到谈论如何通过搜索广告增加收入、如何优化现有网站、如何改善渠道和促销活动、如何强化品牌美誉度等等话题的章节。本书还介绍了 Google 的众多工具,包括 AdWords、AdSense、Google Trends 等。


读者感想:它让我明白如何最大限度地进行基于 Google Analytics 的整体营销。它不是简单地如何使用 Google Analytics,它讨论的是如何在 Google Analytics 时代做营销。书里有非常多使用的建议和例子。



You Should Test That,Chris Goward 著


面向对象:寻求潜在客户、转化优化、收入优化的战略家


关于作者:Chris Goward 是 WiderFunnel 的创始人兼首席执行官。他被公认为是转化优化思想的领军人物,他拥有一个极具影响力的博客。


推荐理由:Chris Goward 解释了转化优化策略的「为什么」和「怎么做」。本书将帮助您制定销售或营销优化策略,以适当的分析工具支持您的业务目标。这本书还会用练习、案例和全彩的关键策略点强调来你如何执行。


读者感想:这本书提供了一个易于理解的框架,并提供了许多关于如何针对特定目标进行优化的优秀构想。这是一个有广泛需求的全面的测试方法。  ——Jesse Nichols,Google Analytics 成员



Ten Signs of Data Science Maturity,由 Peter Guerra 与 Kirk Borne 合著


面向对象:希望在数据科学和大数据分析方面建立更强竞争力的数据科学和分析领导者


关于作者:Kirk Borne 博士是 Booz Allen Hamilton 的首席数据科学家,他曾任 George Mason 大学的教授,负责计算科学与信息学课程。他还在 NASA 工作了 18 年,担任过哈勃望远镜 Data Archive Project 的科学家。Peter Guerra 是 Booz Allen Hamilton 的战略创新团队的副总裁。他的专长是建设高可用性、大规模分布式系统,他领导过很多高级分析和大型数据计算项目。


推荐理由:您的组织有多希望使用数据科学?您如何识别您的组织是否具有成熟的数据处理能力?您如何帮助您的分析团队磨练其技能?如果您是数据科学领导者,正在寻找这些问题的答案,那么您应该好好读读这本书。这本书给出了一份详细的报告,讨论了数据科学成熟度的十个衡量标准。它鼓励分析专业人员让组织中的每个人都能够访问所有可用数据,使用 DataOps 做数据产品开发,帮助您的数据科学团队通过外部或内部竞争来提高其技能。本书把数据科学视为一种做事方式,而不是一件要做的事情。


读者感想:任何想要建立数据科学能力的数据科学领导者都应该阅读本书,并在组织内部引导一种成熟的分析文化。



Thinking Fast and Slow,Daniel Kahneman 著


面向对象:想要理解有关人们是如何做决策的相关概念的企业领导者


关于作者:Daniel Kahneman 是普林斯顿大学心理学教授。他与 Amos Tversky 在决策制定方面进行的开创性工作让他获得了 2002 年诺贝尔经济学奖。


推荐理由:Kahneman 解释了脑中两个「系统」如何做出决定。「系统 1」是大脑中快的、直觉的部分。「系统 2」是大脑中慢的、合乎逻辑和推理的部分。他以举例的方式,生动形象地说明了,为什么我们经常作出不合理的决策。他对于我们如何在工作和生活中作出决策给出了具有启发性的阐述,并且指导我们如何用不同的技巧来避免那些经常让我们陷入困境的「理智出走」。


读者感想:任何对人类行为或者投资感兴趣的人都应该读读这本书。他清楚地说明,虽然我们总觉得自己在决策时是理性的,但事实是我们经常受困于偏见。这本书给你一个更好地机会去学习如何规避,起码是减少偏见。 ——来自 CBS News 的 Larry Swedroe



Weapons of Math Destruction,Cathy O'Neil 著


面向对象:想要了解大数据驱动的数学模型的「月亮背面」的数据科学家和组织决策者


关于作者:Catherine Helen O'Neil 是一位美国数学家,博客作者、畅销书作者,著有几本数据科学书籍。她曾担任哥伦比亚大学新闻学院数据实践项目主任,她还曾在 Johnson Research Labs 做数据科学顾问。


推荐理由:作者通过现实世界的例子和活泼的讲述方式,展示了所谓大数据算法和数学模型是如何反过来控制人的。书中所使用的案例研究非常引人入胜且简明扼要。这本书能够让数据科学家明白那些实际上「控制」了企业决策 隐形算法。


读者感想:思路清晰、引人深思。任何会被大数据影响的人都应该读读这本书,也就是说,任何人都应该读读这本书。



Infonomics: How to Monetize, Manage and Measure Information as an Asset for Competitive Advantage,Douglas B.Laney 著


面向对象:首席数据官,以及打算在数字化经济时代取得成功的商业领袖


关于作者:Doug Laney 是 Gartner 的首席数据官(CDO)和杰出分析师。他是一名经验丰富的从业者,两度获得 Gartner 年度思想领袖奖。


推荐理由:信息量化是讲述量化信息资产价值的方法和策略的学科,它也研究如何将信息用作提升竞争力、推动增长的武器。该书为如何评估信息价值提供了有用的框架,并指出了公司在最大化信息价值的过程中面临的挑战。Doug 以亲身经历举例,说明了 CDO 在制定数据策略时应该考虑哪些问题。


读者感想:这本书为一个全新的学科的发展奠定了基础。大多数商业领袖似乎都忽略了信息的无限可重复性和可重用性。它的低存储和传输成本以及高度可自动化性质让它成为无与伦比的资源。本书为信息评估提供了有用的框架,明确了企业在试图最大限度发挥信息价值时所面临的众多挑战,以及应对这些挑战、并在新兴经济中蓬勃发展的方法。  ——新南威尔士政府首席数据科学家 Ian Oppermann



Flash Boys: A Wall Street Revolt,Michael Lewis 著


面向对象:想要全方位了解金融危机和高频交易的金融行业人士


关于作者:Michael Lewis 曾出版过多本畅销书。他最近的作品 Moneyball、The Big Short 和 Boomerang,都在讲述全球金融危机的故事。他是 Bloomberg 的专栏作家,也是 Vanity Fair 的特约撰稿人。


推荐理由:本书描绘了高频交易繁荣的表象以及连腐化都极为复杂的内里。Michael 以他独特的叙述风格,深入地解释了股票市场的运行机制。这本书讲述了一个动人的故事,有许多引人入胜的人物。尽管这个主题很复杂,但大多数概念解释得很清晰。这本书也很好地解释了当前的行业氛围及其对市场的潜在危害。


读者感想:特别迷人……描述了华尔街如何在背地里完成大部分交易的过程。


]]> 原文: http://ift.tt/2x5Pj8B
RSS Feed

机器知心

IFTTT

2017年9月30日星期六

独家 | 揭秘出行巨头Uber的机器学习平台与团队

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

科技巨头加注人工智能仿佛是场竞赛。

前不久,Uber正式推出机器学习平台Michelangelo,希望通过这个平台全面处理工作流程,并推动AI普及化。恰巧就在当天,量子位在人工智能计算大会(AICC)上注1,遇到并专访了Uber机器学习负责人王鲁明。

对于这个机器学习平台的意义,Uber机器学习负责人王鲁明介绍说,Top级企业真正的核心竞争力就是数据和平台,如果我们把大数据看成一个金矿,那这个平台就是挖掘金矿的工具。

"一个好的机器学习平台,不光是个铁锹,它必须是个现代化大型自动化挖掘机。只有让大数据以更廉价的方式得到,才能让人工智能更好走向最高峰。"

关于Uber这个名为Michelangelo的机器学习平台,其负责人王鲁明还向量子位分享了更多幕后故事。

能做什么?

我们先从结果上来看,Michelangelo到底可以做些什么?

Uber方面的说法是,Michelangelo的主要作用是能够让内部团队可以无缝构建、部署和运作适合Uber量级的机器学习解决方案,可以覆盖端到端机器学习工作流,包含:管理数据、训练、评估和部署模型,以及监控预测。该系统还支持传统的机器学习模型、时间序列预测和深度学习。

在Uber内部,Michelangelo是Uber工程师和数据科学家实际使用的机器学习系统,有几十个团队使用它构建和部署模型。由于该系统部署在多个Uber数据中心上,还会影响到专门的硬件,以及对Uber最高加载量的在线服务提供预测。

归根结底,Michelangelo的出现,把Uber内部分散在各个业务团队中的机器学习开发需求集中起来,减少重复开发的资源浪费。

一开始走了弯路

王鲁明称,这个机器学习平台创建于2015年年底,当时最大的需求来自大量团队在实际工作中需要用到机器学习。

在这个平台推出前,Uber内部每个团队都"各自为政"——自己做自己的机器学习开发,所以中间必然有大量重复的工作,效率也比较低。

这直接促成了Michelangelo建立,不过也并不意味着一路顺利。

现在总结起来,最大的弯路在于对深度学习不够专注。而围绕非深度学习切换了不同的平台,比如H2O之类的,最后才决定使用Spark ML作为自己的机器学习平台。

"当时的出发点是尽可能使用开源资源,在开源的基础上有一些Uber的开发和创新,也尽可能把这些开源和创新回馈给整个社区。在Spark ML我们做了很多工作,比如加了很多新的算法,像我们前段时间加了Siri的算法,这个是原来Spark ML不支持的。"王鲁明透露说。

其后直到2016年7月,Uber机器学习平台才加入了对深度学习的支持。这才算真正让Michelangelo走上了正轨。

现在,有几十个来自Uber的内部用户通过Michelangelo来满足自己在机器学习方面的要求,并且让任务变得更富效率,几乎所有的测试工作,都可以在Michelangelo上完成。

"具体业务团队只需要专注他们所需的业务需求上,然后思考用什么样的算法去解决业务需求的问题。他们不需要考虑数据从哪里来、需要多少台机器、机器在何方?这些问题都由Michelangelo承担。"

王鲁明进一步明确说,Michelangelo实际上提供的就是一个端到端的解决方案,可以帮助Uber内部团队完成挑选数据、建立模型、训练模型、模型比较、管理,最后把最佳模型进行分析、计算和处理。

因为Uber的业务涉及全球成百上千个城市,而且每一个城市还可以按照区域往下建模型,因此一个"用户"可能就会有几千个模型,这就要求Michelangelo能够给这几千个模型同时支持、平衡和分析。

过去,涉及较大数据的模型,单机训练可能要将近1个月的时间,但现在整个效率已经大大提升,整个技术从定向到开发,时间周期大大缩短。

王鲁明举例说,内部一个项目此前花了4个月时间,但换到Michelangelo后,整个周期变成了1个月。

实际应用

对于Michelangelo的实际应用,王鲁明举了几个例子。

一是Uber的无人驾驶业务,之前围绕深度学习方面的工作都在其他平台或买一台4GPU的单机进行训练,但现在已经完全转到了Michelangelo上。

二是Uber的街景车业务,在获取了众多高精度相片中,需要对图像中的价值信息进行提取。一开始街景车团队在Caffe1.0上进行,不过只有单机版的Caffe1.0显然拖慢了效率。

20人规模的团队,需要在模型和机器之间的管理、共享和资源分配上浪费精力,甚至需要人工去修改机器是否在用,非常落后且低效。

而换到Michelangelo之后,"用户"不用再去记住模型和具体机器的对应关系,整个平台互联互通,就好似在一台机器上一样。

以上都是深度学习的案例,Uber还有一些非深度学习解决的问题。

比如有人叫车时,周围有十几个司机,选哪个司机来与乘客匹配?如果没有选好的话,司机和乘客都有可能取消,而取消就是对所有人都存在损失——即便没有经济上的,也有时间成本和用户体验上的。

所以这个模型核心要解决的问题是最大概率减少"取消"的操作,"取消率"越低,效果越好。

类似的模型也应用于Uber Eats上,其中关于食物的推荐、下订单后所需时长,其中都是机器学习的应用,而目前所有这些机器学习的应用,都在Michelangelo上实现。

深度学习非万能

王鲁明也解释了为什么Michelangelo平台并非全部使用深度学习的原因。

一方面跟深度学习目前存在的"瓶颈"有关,另一方面与Uber实际应用需要密不可分。

这位Uber机器学习负责人表示,深度学习的第一个问题是"不好解释":为什么起作用、为什么不起作用,无据可查。

另一个问题是在具体应用中模型层数的问题,以自动驾驶举例,可能一千层在测试中效果很好,但真正实际应用中,40毫秒之类的时间内,如此深的计算来不及,即便配上最好的GPU,也迫使你需要把模型层级变得更窄,这就会造成限制。

目前,对于上述情况,Uber内部的解决方案主要通过降低计算量和提升计算力两大方面来展开。

Uber机器学习负责人王鲁明

揭秘Uber机器学习团队

关于Uber机器学习团队,王鲁明也向量子位透露了规模、优势和招聘要求。

他表示,目前Uber机器学习团队维持着30人规模,最早的时候才有10人。现在随着客户数量的不断增加,团队规模也在不断扩充。

对于人才吸引,这位Michelangelo负责人并不担心。

他认为Uber对机器学习工程师吸引力明显。

首先,Uber的工作,是一个比特(数字世界)和原子(现实世界)结合的事业,可以通过算法去影响人在实际生活中的行为,这是很多互联网公司所缺乏的。

其次,同样因为核心业务的原因,Uber源源不断的数据相对更富价值,这也是Uber有信心在AI领域一展身手的原因。

王鲁明透露说,在对数据模型的并行处理方面,Uber目前甚至比Google还要出色。

不过,并不意味着机器学习方向的工程师都能进入Uber机器学习团队。

在解释Michelangelo所需人才的素质时,王鲁明希望找到那些熟悉具体应用领域,又对机器学习有较深理解的技术人才。

"我们团队不是真正在做应用,但需要对具体领域非常了解,这样才能知道用户痛点,才能给他提供最有效的支持。还需要较强的技术背景,比如在并行计算、性能优化等方面有技术能力。"

OMT:对其他公司的建议

最后,对于其他公司从无到有建立一个类似Michelangelo的机器学习平台,王鲁明也向量子位表达了建议:

一方面是向优秀公司或优秀平台学习,比如在Uber机器学习平台建设过程中,就从Facebook学习了很多经验;

另一方面是选择合适的开源架构,比如完全学习Google并不容易,但从Google开源平台TensorFlow中选择合适的开源技术,会让所有的事情事半功倍。

注1:人工智能计算大会(AICC)由中国工程院信息与电子工程学部主办、浪潮集团承办的聚焦"人工智能计算"领域的行业大会。

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2kclxcb
RSS Feed

RSS5

IFTTT

苹果开源iOS和macOS内核源代码

李林 发自 G1量子位 出品 | 公众号 QbitAI

没想到,国庆节这天醒来一看,素以"封闭"闻名的苹果公司,竟然在GitHub上公布了旗舰操作系统的XNU内核源代码。

XNU代表的含义是"XNU is Not Unix"(XNU不是Unix),这是一个类似Unix的内核,用在各类苹果Darwin操作系统中,包括电脑系统macOS(以及早先的版本OS X),还有移动操作系统iOS。

通过访问内核代码,苹果可以让开发者更容易理解设备如何与上层软件互相配合。现在还很难说开发者能从中获益多少,但起码是件好事。

Twitter上各路网友纷纷表示不敢相信,截个图看看:

不过也有Hacker News用户留言指出,Darwin-XNU也就是OS X/iOS的内核已经通过苹果官方开源过了,这个消息的重点应该是苹果竟然开始用GitHub了……

但这种说法很快也被反驳:"不是这样,iOS的部分就是首次放出"。

好吧,不管你怎么看,我们就权当这是苹果的一次"国庆献礼"吧。相关地址列在下方。

苹果开源地址在此:http://ift.tt/1nWBjn8

http://ift.tt/2rxGSwU

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2xH7VLC
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...