AI 人工智能新闻资讯

2018年5月13日星期日

专访贝索斯，做一个亿万富翁兼电商帝国缔造者是一种怎样的体验？

4 月 24 日，贝索斯前往柏林领了一个非常有趣的奖项：「阿克塞尔·施普林格奖（Axel Springer Award）。」

按照奖项设置说明，颁奖对象将是泛媒体业那些杰出的创新者或企业家个人。他（他们）以自己的卓越才华，完成重大的技术创新，创造并改变市场，重塑文化，且勇于面对并承担自己的社会责任。这个奖项表彰获奖者取得的成就，并且鼓励他们继续向前迈进。

2016 年，31 岁的 Facebook 创始人马克·扎克伯格是这项奖的第一位获奖者。此后，这个奖项将每年颁奖。贝索斯是 2018 年的获奖者。

这个奖项有趣的地方在于，传统媒体为某种程度意义上的颠覆者颁奖，就像人民日报集团或者南方报业集团设立一个大奖，颁发给颠覆者陈彤、张一鸣、或者张小龙，以表彰他们对于新闻业的颠覆与改造。

在领奖的时候，Axel Springer（外媒 Business Insider's 母公司）的 CEO Mathias Döpfner 和亚马逊 CEO 杰夫 · 贝索斯聊了聊。

Döpfner：杰夫，你以前在纽约做投资银行家。投资银行家实际上与企业家完全相反，他们自己不冒险ーー他们利用其他人承担的风险。你为什么觉得自己应该成为一名企业家，并真正去创办一家公司？

Bezos：我从小就一直是那种看到什么东西都觉得自己可以再改进一下的人，比如这家餐厅怎么变得更好呢？我一直有这样的想法。

我认为人类最大的优点就是我们总是在改进事物。因此，如果企业家和发明家追随他们的好奇心，追随他们的激情，他们就会找到解决各种问题的办法。永远不会满足，你需要利用这一点。

另外，在我看来，你需要重视的是你的客户而不是竞争对手。有时会看到一些公司，即便是年轻的小型创业公司或企业家，都开始更加关注自己的竞争对手，而不是他们的客户。如果是在大型成熟的行业里面，这可能是一个成功的方法，有些情况下他们会紧随其后，让其他竞争对手冲在前面试探和培育市场，甚至，走进死胡同。有创造力的公司尝试的很多新事物其实都是会失败的，这些错误和失败确实会很花钱。

因此，一个成熟行业中，或许增长速度缓慢，几乎没有大变化，但我们越来越频繁地看到，变化依然无处不在。你知道，我们在汽车工业中可以看到自动驾驶汽车，但是你也会在其他行业中看到它。

Döpfner: 你知道你的雄心真正来自哪里吗? 是什么在驱使着你？

Bezos：我真的不知道。我一直对某些事情充满热情，我在四年级时就爱上了电脑。我非常幸运：

我当时所在的小学有一台电传打字机，它可以连接到一个大型计算机。你可以想象一下这种类型的电传机：它们有打孔带，有一个 300 波特的调制解调器。你可以拨电话，把它放在摇篮里，上面有分时系统。但没有一个老师知道如何使用它，我和另外两个孩子在放学后留下来学习如何编程，并且是从书本中自学。

实际上，我们都会有某种天赋，在生活中也都会拥有某些非常幸运的东西，其中最有力的一个就是你早期的榜样。

Döpfner：你的祖父？

Bezos：在很大程度上是的。我的妈妈、爸爸也是我的榜样。我妈妈在她 17 岁的时候就怀上了我，当时她还在上高中，在新墨西哥州的阿尔布开克，这是在 1964 年。我可以向你保证，当时在新墨西哥州的这个地方，当一个高中时期怀孕的青少年并不酷，她需要面对非常艰难的处境。我祖父为她去辩护，但学校试图把她踢出去，他们觉得这简直不可思议，所以我所拥有的礼物就是，我有这样一个不可思议的家庭。

Döpfner：你能描述一下你的祖父吗？看起来他对你来说特别重要。

Bezos：他对我来说超级重要，我和我的祖父母在一起度过了一段漫长美好的时光，特别是和我祖父在农场的时候。

我的祖父在南德克萨斯州有一个农场，从 4 岁到 16 岁，我都会在那里度过我的夏天。当我 4 岁的时候，他们把我带去共度暑假，好让我的父母休息一下。我那时还很年轻，很机灵，也是个调皮蛋。不管怎样，在我 4 岁的时候，他给我制造了一个我是在农场给他帮忙的幻觉。当然，这不是真的，但是我信了。

在我 16 岁的时候，我真的是在给农场帮忙了。我可以给牛接生，我们自己做了所有的兽医工作。有些牛甚至幸存了下来，哈哈，我们修好了风车，铺设了输水管道，建起了栅栏和谷仓，修好了你们之前说的推土机。这种生活方式和我祖父本人一样有趣，无所不能。你可以想一下，他从不给兽医打电话，如果其中一只动物生病了，他就会自己想办法。

Döpfner：我们从中可以学到什么，如果这真的管用，那么还需要团队吗？

Bezos：做一个足智多谋的人，有问题的地方就有办法。

当然，当你做生意或是在团队任何岗位上的时候，你很快就会意识到，不仅仅要你自己足智多谋，还要你的团队足智多谋。这应该如何做到呢？

我要讲的故事有点长，但其中有大智慧。当时我们正在长途跋涉，祖母是个老烟枪。那时我大概 10 岁，大约是 1974 年左右，那会儿有大量反对吸烟广告试图说服人们戒烟。其中一个广告上有这样一个图形，上面写着「每吸一口烟都会让你的生命减少好几分钟。」也许是两分钟，记不清楚了。于是，我坐在这辆长途汽车的后座上，计算着她已经吸走了多少年的寿命。那时我十岁了，这个算术对我来说很简单，所以当我完成计算时，我自然而然就骄傲地向她宣称她已经吸走了多少年的生命。但是我没想到的是，她突然哭了起来。

于是祖父停下车，把我从车里拉了出来。我也不知道将要发生什么，因为他从来没有对我说过生气的话。我想他可能真的在生我的气。但他没有，他把我带出去，分享了一些祖母的小故事之后，他提到了让我难以忘怀的话，他说：「总有一天你会发现善良比聪明更难。」

Döpfner：很棒，那你哥哥呢？他是个消防员是真的吗？

Bezos：是的，他是 Scarsdale 的一名志愿消防员。他也是我认识的最有趣的人。当我和他在一起，我就会一直被逗笑。

首先，我是一个很好的听众，我的意思是，我笑点很低。但是他真的很有趣，我妹妹也是。我们都很亲密。我要感谢我的母亲，因为她很努力地让我们一直都能够和睦相处。每年夏天，她都会照料所有的孙子孙女一个星期，这样，我和妹妹还有我们的爱人可以一起去旅行，得到一些时间呆在一块。

Döpfner：对我来说，今晚看到的最感人的画面是 John Elkann 展示的，里面你和 MacKenzie 正在建造那张著名的办公桌。它非常打动人，因为它展示了你们是如何真正白手起家的，你能描述一下 MacKenzie 的角色吗？

Bezos：好的，刚开始，如你所知，她嫁给了一个在华尔街稳定工作的人，我们结婚一年以后，我去找她说我想辞职然后去开一家网上书店卖到全国各地。当然，MacKenzie 和其他我沟通过的人一样，第一个问题也是：「互联网是什么?」那是 1994 年，确实没有人知道。

但是她在「互联网是什么?」说出口之前先说了，「太好了，走吧！」她想要支持我，因为她知道我一直对创新和创业抱有热情。

我也和我的母亲、父亲谈论过此事，我的父亲是一个古巴移民，他 16 岁时来到美国，当时他住在 Everglades 的一个难民营里。他们无条件支持我。当你生活中有爱和支持你的人，比如 MacKenzie，我的父母，我的祖父、祖母，你就能够承担风险。因为你知道，有人在背后支持你。因此，从逻辑上想的话，这是一种情感上的东西。

Döpfner：所以你觉得或者你经历的这种无条件的爱在帮助你承担生活中的风险？

Bezos：我认为是有帮助的...... 顺便说一下，我认为这可能适用于生活中各种各样的风险，而不仅仅是创业。尽管生活中充满了不同的风险，我认为，当你思考你 80 岁时会后悔的事情，它们几乎都会是你没做过的事，你很少会后悔自己做了但是失败的事情。

对了，我不仅仅是在谈论生意，而是「我爱那个人，我从来没有告诉过他们」，50 年后你会说，「我为什么不告诉她呢？为什么我不去追求她呢?」所以，当你在私下讲述自己的人生故事时，这种生活中的遗憾是很难让人快乐的。我就像中了彩票——一种生活中有那么多人给我这个无条件的爱的彩票，我确信 MacKenzie 就是其中之一。

提出创业想法后，我们立即行动并搬了家，虽然 MacKenzie 在这个领域基本没有任何技能ーー我的意思是，她真的是最不适合干这个的人，但是她第一年帮我们做了会计工作。是第一年吗？

MacKenzie Bezos：是的。

Bezos：但是她做得很好，这令人惊奇。我妻子是个小说家，她曾获得过美国图书奖。诺贝尔奖获得者、普林斯顿大学老师 Toni Morrison 在《查理•罗斯》节目中表示，MacKenzie 是她有史以来最优秀的学生。

MacKenzie 是一个非常有才华的小说家，虽然她不是一个会计，但是她办到了，再一次，我们都完成了我们需要完成的工作。

Döpfner：作为一个作家，她有没有建议你从一开始就把注意力放在图书业务上？

Bezos：不，是我选的。她确实是个书虫，我也是，但这不是我选图书的原因。我选择书籍是因为书这个品类的数量比其他任何品类都多。这样你就可以无所不包。

1994 年，我提出这个想法的时候，市场上有 300 万本图书，而且是在任何时候都有 300 万本不同的图书在印刷。d 最大的实体书店只有大约 15 万种不同的书。

因此，我想要的是一个无所不包的网上书店，容纳每一本出版的书籍，即使是已经绝版的，这就是公司最初的愿景。而这就是为什么我选择图书品类的原因。

Döpfner：你是什么时候开始确信亚马逊会成功？

Bezos：嗯，奇怪的是，我原以为这项图书事业会花很长时间。但是在开始的 30 天内，我就知道这个生意会很成功。我很惊奇地发现我们卖出去了很多本书，并且我们是准备不足的，那时我们公司只有 10 个人，而且他们中的大多数还是软件工程师。

所以，每个人，包括我和软件工程师都去打包书籍了。我们甚至没有包装书籍用的桌子，我们都是跪在水泥地板上用双手给箱子打包。有次大约凌晨一两点的时候，我对我的一个软件工程同事说：「你知道吗，我的膝盖疼死了。我们需要护膝。他看着我继续说，我们真的得弄些包装桌。」（笑）我说，「哦，天哪，这真是个好主意。」第二天，我买了很多包装桌，它使我们的生产力提高了一倍，可能也拯救了我们的背部和膝盖。

Döpfner：但亚马逊接下来出现了危机，你几乎都要破产了，出了什么问题？

Bezos：有很多问题。但是我没有存在任何危机感，也许是在祈求好运，而我也不想把任何事情认为是倒霉的。我们只是经历了很多戏剧性的事情。

很早的时候，我记得，那会儿我们刚运营两年时间，只有 125 名员工，美国大型书商 Barnes & Noble 就建立了它们的在线网站来与我们竞争，叫做 barnesandnoble.com，在 1997 年正式开业。

那时候，所有的头条新闻都打趣我们将被这个更大的公司摧毁。我们有 125 名员工和每年 6000 万美元的年销售额，而当时 Barnes & Noble 有 3 万名员工，销售额约为 30 亿美元。可以说，它们算是巨人，而我们是侏儒。

我们资源有限，无法改变头条新闻上总是出现亚马逊负面内容的局面。我召集了全体会议，召开这个 125 人的大会并不难。我们进入了一个房间，有了一个强大的竞争对手，这个念头对我们所有人来说都很可怕。每个人的父母都在打电话问，「你还好吗?」，通常是妈妈们打电话问他们的孩子。

所以，我就说，「看，大家都知道，害怕是可以的，但是不要害怕我们的竞争对手，因为他们永远不会给我们送钱。应该紧张的是我们的顾客。如果我们专注于顾客，而不是纠结于刚出现的强大竞争对手，我们就会渡过难关。」

我真的相信这一点。无论什么使你分心，你的反应都应该是双倍专注于顾客。而且不仅仅是满足他们，还要取悦他们。

Döpfner：亚马逊雇了 56 万 6 千名员工，你可能是近年来最大的工作岗位提供者。但是与此同时，工会和媒体们因为不合适的工作条件以及低工资而严厉批评你们。你是如何处理这些指控的？

Bezos：首先，有任何批评意见...... 我解决批评的方法，就是我在亚马逊教和说的那一套——当你受到批评时，首先照照镜子，然后再做决定，你的批评者是对的吗？如果他们是对，不要反抗，去改正。

Döpfner：他们是对的吗？

Bezos：不是，这个案例里不是，我们以前也遇到过批评，但是我们改正了。我们犯过错误，我可以列一个长长的清单。其中一个让人痛苦的错误是在早期犯的，这个错误很愚蠢，以至于我们现在都很难相信我们是如何做到的。

在 Kindle 发布的早期，无论是 Kindle 的第一年，还是 Kindle 的第二年，我们都出售或赠送过一部著名小说《1984》的副本，这是非法的，因为这部小说拥有复杂的版权历史，它的版权在美国，而不是在英国。还有一些像这样的特殊书籍，不过也还好，它们仅限于某些地区。

这次事件我们搞砸了，这种错误只有公司才会犯，个人不可能犯这种错误，因为这种错误一般发生在同一个公司不同团队职责的交叉点上，所以你得赶紧去让你的法律部门说，「哦，糟糕，我们犯了这个错误」，让图书团队去...... 不管怎样，公司想出的最终解决办法是，没有做任何事先通知就把书卸载，也就是「黑进」每个下载了这本书的 Kindle，然后把书卸载。（笑）就好像我们半夜走进你的卧室，来到你的书架把某本书拿走了。你看，我们对我们的批评做出了回应。

关于工作环境，我一直都很自豪于我们的工作环境和薪水。你懂的，我们在德国雇了一万六千多人，我们的薪资水平在同类工作的最上方。

Döpfner：那工会抗争真正的本质是什么？

Bezos：这是个好问题，这也是我如何应对批评的长期战略。

批评分两种。善意的批评会担心没有效果，我可以给你一个例子，客户评论就是其中之一，20 年前，我们第一次开放了客户评论，一些图书出版商对此并不满意，因为有些书的评论是负面的，所以在那个时候，这是一个非常有争议的做法，但是我们认为这是正确的，所以我们坚持了。

还有第二种批评，他们是自私自利的批评，当然他们可能来自任何一家机构、竞争对手等等。所以当你以一种崭新的方式做某件事时，如果被顾客接受，一些还在操持旧业的人就会不喜欢你，可能就会成为自私自利的批评者。所以当你照镜子的时候，试着要把这两种批评分开。

在我们看来，我们设置了员工委员会，我们与我们的员工之间有很好的沟通，所以我们并不认为我们需要一个工会来成为我们和员工之间的中间人。当然，最终，这总是员工的选择。我经常告诉人们的一件事就是，如果你要去做什么，如果你要做任何新的或创新的事情，你必须准备好被误解，如果你不能接受被误解，那么看在上帝的份上，别去做任何新的或创新的事情。

Döpfner：Maggie Thatcher 说，「领导力某刻并不让人愉悦。」

Bezos：非常对。

Döpfner：但是你目前面对的最知名的批评者是美国总统。人们甚至说他可能准备了拆分亚马逊的计划，因为它太大了，太成功了，它在太多的领域占据了主导地位，或者出于其他各种各样的原因，包括他不喜欢《华盛顿邮报》的这一事实。这种被拆分的假设你是在认真对待，还是只把它当做是一个幻想？

Bezos：对于我来说，这也是我关注的事情之一，我还让我们团队专注于可以控制的事物。我希望，无论是现在的美国政府还是世界各地的其他政府机构都了解到，亚马逊现在已经是一家大公司，我希望我们能受到严格的审查。我们也应该受到审查，并且我认为所有大型机构都应该受到审查和检测，这是合理的。

有一点值得注意的是，我们最近才从绝对数字的意义上获得所谓的巨大成就，我们总是以百分之几的速度增长，但是从 2010 年至今的八年时间里，我们的员工从 3 万人增加到 56 万人。你知道的，在我看来，我还是要亲自送包裹到邮局去，你明白我在说什么吗？我仍然还记得创业初期，曾经希望有一天我们能买得起叉车。但是很明显，我的大脑知道这种情况已经不会发生了，我们在全世界有 56 万名员工。

我知道我们应该受到审查，我认为大型政府机构确实也应该受到审查，大型非盈利机构应该受到审查，大型大学应该受到审查，这就很合理了。顺便说一句，这就是为什么《华盛顿邮报》和世界各地所有其他大型报纸的工作是如此重要。他们往往是那些做初步审查的人，甚至超前于政府机构。

Döpfner: 对于大型创新科技公司的普遍看法已经改变，脸书，谷歌，亚马逊和苹果之类，他们曾被视为穿着 T 恤拯救世界的好人。现在，他们有时候被描绘成世界的恶魔，关于「四大」或「五大」的争论正在升温：斯科特•加洛韦 (Scott Galloway) 和《经济学人》(The Economist) 上的教授们建议拆分，乔治•索罗斯 (George Soros) 这样的强大人物在达沃斯也发表非常重要的演讲，欧盟委员会在这个问题上采取了相当强硬的立场。你是否认为社会心态正在发生变化，那些大型科技公司应该如何应对？亚马逊会如何应对？

Bezos：我认为这是一种自然的本能。我认为我们人类，尤其是在西方世界，尤其是在民主国家内部，对任何形式的大型机构都持怀疑态度并且心怀戒备。我们总是怀疑我们的政府，州政府和地方政府。我想德国的情况也差不多。这是很健康的，因为它们是强大的机构——警察，军队，或者其他什么，这并不意味着你不相信他们，也不意味着他们是坏的或者邪恶的，或者类似的东西。只是他们有很大的权力和控制权，所以你想要监督它们。监督也许是个更好的词，你总是想要监督他们。如果你看看大型科技公司，他们已经变得足够大，他们需要并且将要被监督。

顺便说一句，这不是针对个人的。我认为，如果你是一家大型科技公司或者任何其他大型机构的创始人，你可能会误入歧途，如果你在这个问题上误入歧途，你可能会开始把它当成个人隐私。比如「你为什么要监督我?」，我希望人们只是说，「是的，没问题。」

Döpfner：欧洲和美国对待数据保护和隐私的态度一直不同，但在像剑桥分析之类的事件背景下，美国正在发生变化。这种批评是歇斯底里的还是恰当的？亚马逊这样的公司会有什么样的后果？

Bezos：我认为这是我们这个时代最大的问题之一。我认为互联网就像一个，新的，强大的技术，而且是扁平的。它影响着每一个行业。如果你想得更广泛一点，那就是科技和机器学习，大数据，以及所有这些东西。这些都是强大的、扁平的、强大的技术。

在我看来，互联网在这一点上已经很老旧了，我们已经存在很长时间了，但是到这个规模只有 10 到 15 年的历史。你知道的，要是回到 20 年前，它还是很小的。因此，这个规模只有大约 10 年或 15 年，所以作为一个文明和人类，我们还没有学会如何去操作它。作为一个文明，我们仍然在研究并解决这些问题。

互联网给了我们非凡的能力，事实上，我几乎可以在五秒钟内在维基百科上找到任何内容，这是一种令人难以置信的能力，而这种能力在 20 年前根本不存在，诸如此类还有很多。但是我们也发现，这些强大的工具也带来了一些不好的事情，比如让专制政府干涉世界上的自由民主选举。这是一件非常可怕的事情。

Döpfner：那么你是在提倡一种平衡吗，一种真正推动商业发展的企业家，定义规则的政治家和监管者，社会和爱挑刺的记者他们之间的平衡？

Bezos：我对亚马逊这个角色在这个问题上的看法，这是你先问我的。我认为，首先，我们有义务代表社会去尝试和帮助教育任何监管者，真诚地给予他们我们的观点，没有任何愤世嫉俗或怀疑的态度。这就是我们所相信的，但这并不是我们的最终决定，所以我们将会根据我们被赋予的任何规则来工作，最终，由社会决定。无论这些规则对我们的业务产生何种影响，我们都会遵守这些规则。

如果需要的话，我们还会找到一种新的方式来取悦顾客。你需要担心的，我不希望看到的，则是任何形式的阻碍创新和发明。监管的意外后果之一，它确实有利于现任掌权者，现在，亚马逊现在就是一个现任掌权者，所以也许我应该为此感到高兴。

但我不会，因为我为社会考虑，你真的希望看到持续的进步。就我们受到的监管而言，我们希望确保它正在激发创新而不是阻碍创新，与此同时，在数据安全、隐私、加密技术方面——你如何保障人们的人身安全而不受世界各地恐怖分子和坏人的伤害，以及如何平衡这些与隐私之间的关系？这些都是非常具有挑战性的问题。即使在几年之内，我们也不能回答这些问题，我认为这将是一个持续很长时间的事情。

Döpfner：数据安全和隐私将成为企业的竞争优势，而对于那些没有以令人尊重和负责任的方式处理数据的企业来说，则会成为竞争劣势。

Bezos：我百分之百同意这一点。我认为，和客户在一起，就是我们能够拓展新业务和追求新产品品类的原因之一。很久以前，我们只是卖书，然后我们开始销售音乐、DVDs、电子产品和玩具等等，然后我们开始用 Kindle 拓展电子阅读任务。

客户之所以一直接受我们的新举措，很大程度上是因为我们努力工作来赢得他们的的信任。赢得客户信任是一种有价值的商业资产，如果你侵犯他们的数据，他们就会知道，他们会发现的。顾客非常聪明，永远不应该低估你的顾客。

Döpfner：你正在准备第二个总部。它会建立在美国。你为什么不考虑在欧洲做这件事？

Bezos：我想建在加拿大、美国或墨西哥这些属于同一个时区的地方。

Döpfner：所以这不是一个反欧洲的决定？

Bezos：当然不是。

Döpfner：当你收购《华盛顿邮报》的时候，有人说，「嗯，那只是个人玩具——他想在华盛顿拥有一些政治影响力。」其他人则认为这是你战略的一个崭新的长期因素，到底是什么呢？

Bezos：你可以向别人解释事情，但是你不能理解别人的事情。我所能做的就是说出我的思维过程是什么，我不是想买报纸。我从来没有想过这件事，所以当机会来临的时候，我认识了唐 · 格雷厄姆已经 15 年了，你们当中肯定有幸运的家伙认识唐，他是你见过的最可敬的绅士。

他是个了不起的家伙，他非常喜欢《华盛顿邮报》，所以这对他来说是一个巨大的个人牺牲，但是它在他的家族中已经存在了很长时间，他需要为它找到一个新家。他不希望某一些买家最终买下《邮报》，因为他希望邮报保持独立。所以当他拿着这个想法来找我时，我说：「你知道，我不是对的人，因为我对报纸生意一无所知。」他说：「没关系，因为《华盛顿邮报》有很多人了解报纸生意。我们真正需要的是一个对互联网有更多了解的人。

当时，该报纸的财务状况非常糟糕。所以对我来说，我不得不决定：「是不是没救了?」我不相信这是没有希望的，我乐观地认为《华盛顿邮报》能够扭转局势。然后，第二，我不得不决定，「我是不是想把自己的时间和精力放在这上面?」对我来说，我只需要问一个简单的问题，「它是一个重要的机构吗?」，这个问题的答案是肯定的。我一想到这个问题，就很明显了，就好像说好吧，我想我在两方面都能帮上忙。转让之后，我可以提供资金，我也可以用我的互联网知识帮助他，那么，它是一个值得拯救的机构吗？当然！它是西方世界最重要的首都的最重要的报纸。如果我不救那份报纸，我会疯掉的。我想当我 80 岁的时候，我会非常高兴，我做了那个决定。

Döpfner：你看过 Steven Spielberg 的电影《邮报》吗？你觉得怎么样？

Bezos：是的，我看过几次。

Döpfner：你从中学到了什么，你会想去买其他报纸吗？

Bezos：不会，我每个月都会收到这个建议。真的是这样，我会告诉他们，不会。邮报是我买的，我对买其他报纸不感兴趣。我看了那部电影，很有帮助。

我喜欢那部电影，也喜欢读凯瑟琳·格雷厄姆的回忆录，这本回忆录获得了普利策奖，是一本令人惊叹的书。因为它让我很安心。你知道，作为《华盛顿邮报》的所有者，我了解《华盛顿邮报》有时会写出一些故事，这些故事会让非常有权势的人非常不快乐。

Döpfner：如果《华盛顿邮报》的记者们在写一些关于亚马逊的批评性文章，你会不高兴吗？

Bezos：不会，我一点也不会。

Döpfner：你曾经干涉过或者想干涉他们吗？

Bezos：从来没有。如果干涉，我会很尴尬的，我的脸会变成鲜红色。这和...... 我还没有到那么... 我只是不想这样。这会让人感到恶心，会觉得不高兴。如果我干涉了，当我 80 岁的时候，我会对自己很不满意。我为什么要这么做？我希望那份报纸是独立的。我们在 Marty Baron 有一个很棒的编辑，我们在 Fred Ryan 有一个出色的出版商，我们技术团队的负责人，一个叫 Shailesh 的家伙，他也非常出色。他们肯定不需要我的帮助。首先，这是专家工作，这就像我上了飞机，走到飞机前面对飞行员说：「你应该让开，让我来做这件事!」

Döpfner：好吧，你不是在驾驶飞机，而是在向轨道发射火箭。你能与我们分享蓝色起源的愿景和可循环使用火箭的太空旅游理念吗？

Bezos：是的，这对我来说非常重要，而且我相信在最长的时间范围内ーー而实际上我正在考虑一个几百年的时间范围，所以在数百万年的时间里，我相信并且我每过一年都会越来越有信心，蓝色起源，这个太空公司，是我正在做的最重要的工作，因此蓝色起源有一个完备的计划。

Döpfner：真的，所以你觉得零售、电子商务、云计算和出版业——这些都不如太空计划有意义？

Bezos：是的，我来告诉你为什么。首先，当然，我对太空很感兴趣，因为我对它充满热情。我从 5 岁起就开始研究和思考这个问题，但这并不是我追求这项事业的原因。我在追求它是因为我相信如果我们不这样做，我们的文明最终会停滞，我发现这非常令人沮丧，我不希望我曾孙的曾孙们生活在一个停滞的文明中。我们人类享受活在一个充满变化和成长的动态文明里。

让我们想想那是什么力量在驱动它。我们并不是真的受到能源限制。让我给你们几个数字。如果你拿出你作为一个人的身体，你的新陈代谢，那它只是一个动物。你吃的是食物，这是你的新陈代谢。你的燃烧功率大约为 100 瓦。你的力量，你的身体，就像一个 100 瓦的灯泡。我们人类非常有效率。你的大脑只有 60 瓦的功率。太神奇了。但是如果你推算一下使用大量能源的发达国家，平均而言，在发达国家，我们的文明新陈代谢率是 11000 瓦。所以，在一个自然状态下，我们作为动物，我们只用 100 瓦。而现实的发达国家，它们使用了 11000 瓦的电力，而且还在增长。在一个世纪或者更长的时间里，我们文明的能源消耗以每年百分之几的速度复合增长。现在，如果你在全球范围内使用基础能源，而且还想在短短几百年的时间里，以每年百分之几的速度复合增长，那么你就必须用太阳能电池覆盖地球的整个表面。这才是真正的能源危机，这种情况很快就会发生。很快，我的意思是在短短的 100 年内。我们实际上没有那么多时间，那么你能做些什么呢？

好吧，你可以过一个停滞的生活，但是你需要限制使用多少能量。你必须只在根据效率工作。顺便说一下，我们一直致力于提高能源效率，但我们仍然在增加能源的使用。在过去的数十年里，我们越来越习惯于使用能源。所以，我认为，文明停滞将是非常糟糕的。现在假设一下，你搬到太阳系里去。太阳系可以轻易地养活一万亿人。如果我们有一万亿人类，我们就会有一千个爱因斯坦和一千个莫扎特，而且还可以不受限制地为所有现实目的提供无限的资源和太阳能。这就是我想要我曾孙的曾孙们生活的世界。顺便说一下，我相信在这个时间范围内，我们将把地球上的所有重工业搬离地球，而地球将被划分为住宅区和轻工业区。它基本上将是一个非常美丽的星球。

我们人类已经向太阳系中的每个行星发送了机器人探测器，相信我，蓝色起源是最好的一个。

Döpfner：杰夫，我什么时候才能买到第一张小型太空旅行的票？

Bezos：会在...... 我们不会卖票ーー我们可能会在今年年底或明年年初把人类放进去，很快了。

我们正在建造一个非常巨大的轨道飞行器。我们已经为此努力了五年多，它将在 2020 年进行首次飞行。关键要搞定循环使用。这个文明，要让数以百万计，数十亿记，甚至是一万亿人在太空中快乐和谐的生活，你不可能用一次性太空飞船来搞定这些，用完然后扔掉，这种进入太空的方式，可笑而又昂贵。

Döpfner：你最近一直在研究家用机器人，我想不止 Alexa walking 吧，家用机器人背后的愿景是什么？

Bezos：我在媒体上看到了这个传言，我不能随便讨论这个。

Döpfner：好像是个严重的问题，杰夫，当涉及到公司、产品和服务时，你是最具长远眼光的企业家之一。而关于慈善事业，你最近说你是非常短视，你随时随地都想搞定这个问题，我认为这也是非常需要创新的，你能阐述一下方法吗？

Bezos：我会用很多方法。在西雅图，那里有一个叫 Mary's Place 的无家可归者收容所，由一个叫 Marty 的女人经营。这确实影响了我对这个问题的思考，因为我看到了，我也赞成，长期导向的慈善事业也是一个非常好的主意，我不反对。

当你去研究无家可归问题时，会发现有很多原因。精神病问题是一个很难治愈的问题，严重的药物成瘾也很难治愈，但是也有另外一些无家可归者他们是只是暂时性的：你可以想一下，一个有孩子的女人，唯一能够提供收入的父亲离家出走，他们就失去了支持系统：没有了家。那是短暂的无家可归，这时你真的可以帮到那个人，顺便说一句，你只需要帮助他们六到九个月，让他们接受训练，给他们找份工作，他们就又成了完美的社会生产力。

Döpfner：上周我们邀请比尔 · 盖茨共度晚餐，他用一种自嘲的方式说，他有一大笔的钱，很难找到合适的方法来合理地使用这笔钱，还要把钱用到合理的地方。那么，作为历史上第一个拥有数十亿美元净财富的人，钱对你来说意味着什么？

Bezos：这么多金融资源我能想到的唯一使用的方法就是，把亚马逊在商业上的胜利转化为太空旅行计划。

基本上就是这样，蓝色起源成本足够高，足以花掉这笔财富。我正在每年清算约 10 亿美元的亚马逊股票来资助蓝色起源，我还打算长时间做这件事情。因为你说的很对，吃多少顿饭都花不完这些钱。我非常幸运，因为我觉得蓝色起源像是我的使命，而且长期来看这对于人类文明非常重要，我打算用我从亚马逊获得的金融彩票奖金来资助这个项目。

Döpfner：关于你的个人生活方式，花钱找乐子有没有让你觉得有罪恶感或者不合理？

Bezos：我不认为有罪恶感。我是说，我有很多乐子，比如我们刚和孩子们完成了一次让人惊奇的旅行。

整件事都是 MacKenzie 策划的。这是她的生日旅行，但是她自己计划好了一切。我们去了挪威三天，住在一家冰雪酒店里。我们还玩了狗拉雪橇。我们去了一个狼群生态保护区，实际上我们和森林狼进行了亲密接触。这真是一个难以置信的假期，一个非常不可思议的假期。我们在三天半的时间里做完成了所有的事情，太神奇了。

Döpfner：你是个顾家的男人。你的孩子对你来说非常重要。你似乎是个理想的父亲。如果我们去和你的孩子谈话，他们会吐槽他们的父亲什么？

Bezos：他们会嘲笑我的歌声。

Döpfner：好的，要不我们？

Bezos：不，哦上帝。他们会嘲笑我记不住正确的词语。我总是引用丘吉尔或其他人说的话，但是经常用错。

他们会说，「这根本不是丘吉尔说的!」他们可能还会时不时的吐槽我。但他们还是孩子！我很幸运，我和他们关系很好。这种工作与生活的和谐是我一直试图教给亚马逊年轻员工，实际上还有高级管理人员的东西。但是特别是对那些刚进来的人。人们总是问我工作和生活的平衡。我的观点是，这是措辞并不是很准确，因为它假定这两者存在着严格的权衡。

实际上，如果我在家里很开心，我就会充满活力地走进办公室。如果我在工作中感到快乐，我就会充满活力地回家。它实际上是一个循环，它不是一个权衡。我认为这是值得大家关注的，因为你永远不会想成为那样的人——我们都有一个那样的同事——当他一进入会议室，他们就耗尽了房间里所有人的精力，你当然想能感觉到能量在呼呼地流动！你不会想成为那样的人，你想一走进办公室，就让每个人感到快乐。

Döpfner：Jeff，非常感谢你的时间。

]]> 原文： https://ift.tt/2Gg7Lv2

机器知心

高捷资本创始人黎蔓：人工智能驱动下的中国制造

2018年5月8日-9日，由杭州市人民政府金融工作办公室、杭州市江干区人民政府、清科集团、投资界联合主办的2018中国股权投资杭州峰会在杭州柏悦酒店举行。在本次峰会中，高捷资本创始人黎蔓先生发表了题为《人工智能"赋能"中国制造》的主旨演讲，并就智能制造的历史机遇、数据驱动下的智能制造、智能化的新能源汽车和智能制造的核"芯"等热点问题进行了解读。

黎蔓先生认为，第四次工业革命将更多体现在人工智能方面。虽然上世纪五六十年代人工智能命题已经出现，但因成本昂贵、商业价值低，当时并没有发展起来。后来数字化的快速发展带来分布式存储，需要大量的数据，这个数据为人工智能提供了可能。而《中国制造2025》主要是我国针对德国和美国的工业发展战略，面对全世界竞争格局和机会下所提出的发展策略。在国家战略里面，高捷资本更多关注在工业流程数字化、工业视觉检测、新一代IT技术、新能源汽车等方面。

关于数据+AI算法对智能制造业的机会，黎蔓先生也提出了自己的看法。他认为经过过去三四十年的发展,中国制造的体量已经将近20万亿，但是大部分比较低端，也比较粗放，能耗高、污染高、效率低，随着人力和租金成本的增长，竞争力在逐渐下滑。但是也有很多机会，一是越来越多的工程师愿意加入到并非在城市中心的制造业，使这些领域有了越来越多的人才；第二是政府和社会的大力支持。他认为数字化、智能化、网络化将会是智能制造的三个趋势。

在新能源汽车方面，黎总提到，未来汽车行业的三大趋势是电动化、智能化和轻量化。中国汽车市场规模每年近3000万辆，是世界第一大市场。而新能源汽车迅速发展，今年规模约100万辆，到2020年预计规模达到500万辆。高级辅助驾驶也开始应用，预计到2023年无人驾驶将成为主流。

在上述的领域，黎总表示无论是汽车还是制造业等等，最核心的就是它的"大脑"，即半导体芯片，而高捷很早就进行了布局。第一是DSP处理能力的芯片，对标的是美国全世界最大的公司，德州仪器；同时也投资AI芯片。 AI芯片分两类，一类是云端的，比如服务器端的大容量计算，还有一类是在端口的，比如摄像头上的芯片，需要快速低功耗计算。除此之外高捷资本也布局了VCSEL芯片，现在只有iPhoneX有3D感应和人脸识别，真正的人脸识别必须要有建模，不管什么样的灯光下都能够辨识，都必须用到这个芯片。最后，黎蔓先生表示，人工智能需要"芯片大脑"，"自主可控"是必经之路。

]]> 原文： https://ift.tt/2rGgB0o

机器知心

赛尔推荐 | 第15期

本次推荐了三篇关于情感生成、情感分析、迁移学习、机器翻译双向解码的论文。

一、

推荐组：SA

推荐人：吴洋（研究方向：情感分析）

论文题目：Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory

作者：Hao Zhou, Minlie Huang, Tianyang Zhang, Xiaoyan Zhu, Bing Liu

出处：AAAI 2018

论文主要相关：情感生成

简评：

这篇论文探索了"如何控制生成文本中的情感"这一问题，是中文情感生成领域的前沿工作。

论文模型中encoder部分采用传统的encoder，decoder部分进行了多处具有创新的改动。一是加入了Internal Memory部分，该部分是受到心理学理论的启发而设计的，即人的情感强度随着表达不断衰减。二是加入了External Momory部分，该部分将情感词与情感词分开进行softmax计算概率，并用系数来调整当前对两类词的输出偏好。三是加入Emotion Category Embedding部分旨在让解码器每一步都能得到要生成情感的指示信息。

Decoder部分的大体流程是一开始通过指定的情感得到对应的Emotion Category Embedding，与此同时在Internal Memory部分计算读出门和写入门的值，读出门的值点乘情感单元的值得到要输出到解码单元中的向量，写入门的值点乘情感单元的值即是下一个时间步情感单元的值。当前时间步的解码单元得到情感单元输出值和Emotion Category Embedding之后，将其与context向量拼接，计算出当前解码单元的输出，利用输出向量通过External Momory来计算输出词的概率分布。　　

评价方式采取了两种方式，第一种使用生成的文本与规定的情感极性是否一致，即计算accuracy。第二种，使用人工的方式，对文本的内容和情感打分，在这个过程中，采取一些统计学方法说明人工打分没有偏见。最终结果表明，三处的改动均起到提升的作用。

论文链接：

https://ift.tt/2oByOrw

二、

推荐组：SP

推荐人：石乾坤（研究方向：股市预测）

论文题目：End-to-End Adversarial Memory Network for Cross-domain Sentiment Classification

作者：Zheng Li, Yu Zhang, Ying Wei, Yuxiang Wu, Qiang Yang

出处：IJCAI 2017

论文主要相关：情感分析，迁移学习

简评：情感分析指的是对一句话的情感倾向（表扬/批评）进行分析，自然语言处理领域中，学者们经常使用亚马逊商品评论作为该领域的标准数据集，这些评论包括电子用品评论、书籍评论、DVD评论等。

情感分析任务中，一个针对A领域（如针对电子用品的评论）训练出的模型，如果用来判别其他领域（如针对书籍的评论）的情感倾向，模型的表现往往较差，这种特点被称为领域独立。该特点使得训练一个针对各领域通用的模型较为困难，而针对每种评论都训练出一个模型又需要大量标注数据，耗时耗力。为解决这个问题，学者们提出了迁移学习模型。

本文提出了Adversarial Memory Network（AMN）模型以进行领域迁移，该模型中的Attention机制可以自动捕捉文本中的关键词，模型中的一个Memory network用于情感分析，另一个Memory network结合Gradient Reversal Layer用于领域混淆。针对上文中提到亚马逊商品评论数据集，该模型的表现显著超过了baseline模型，取得了State of the art的效果。除此之外，该模型还可以显式的给出文本中表达情感的关键词（如great, terrible等），其模型的可解释性也优于其他的深度学习模型。

论文链接：

https://ift.tt/2jXXaMd

三、

2018年5月12日星期六

想入门设计卷积神经网络？这是一份综合设计指南

你想开始做图像分类，但是无从着手。应该使用哪个预训练网络？如何修改网络以使其满足需求？你的网络应该包含 20 层还是 100 层？哪些是最快的、最准确的？这些是你为图像分类选择最好的 CNN 时会遇到的众多问题。

当选择 CNN 来进行图像分类时，有 3 个非常主要的指标需要去优化：准确率、速度和内存消耗。在这些指标上的性能取决于你所选择的 CNN 以及对它所做的任何修改。不同的网络（如 VGG、Inception 以及 ResNet 等）在这些指标上有不同的权衡。此外，你还可以修改这些网络结构，例如通过削减某些层、增加某些层、在网络内部使用扩张卷积，或者不同的网络训练技巧。

这篇文章可以作为一个设计指南，为特定的分类任务的 CNN 设计提供指导。尤其是，我们会聚焦在 3 个主要指标上：准确率、速度和内存消耗。我们会研究很多不同的分类 CNN，并探索它们在这 3 个指标方面对应的属性。我们还会研究对这些基本 CNN 可能做出的修改，以及这些修改会怎样影响这些指标。最后，我们会研究如何为特定图像分类任务最优地设计 CNN。

网络类型

在网络类型和这 3 个指标上有着明确的权衡。首先，你肯定会希望使用 Inception 或者 ResNet 类型的设计。它们比 VGGNet 和 AlexNet 更新，而且在速度和准确率之间提供了更好选择的权衡（正如你在上图中看到的）。斯坦福大学的 Justin Johnson 对其中的一部分做了很棒的基准测试（https://github.com/jcjohnson/cnn-benchmarks）。

Inception 和 ResNet 的选择确实是速度和准确率的权衡：要准确率，用超深层的 ResNet；要速度，用 Inception。

使用巧妙的卷积设计来减少运行时间和内存消耗

对 CNN 一般设计的最新进展已经提出了一些非常棒的可选择方法，它们能够在没有太多的准确率损失的情况下加速 CNN 的运行，并减少内存消耗。所有的这些方法都可以很容易地集成在上述的任何一类卷积神经网络中。

MobileNets（https://arxiv.org/pdf/1801.04381.pdf）使用深度分离的卷积来极大地减少运算和内存的消耗，同时仅牺牲 1% 到 5% 的准确率，准确率的牺牲程度取决于你想要获得的计算节约。
XNOR-Net（https://arxiv.org/pdf/1603.05279.pdf）使用二进制卷积，也就是说，卷积运算只涉及两个可能的数值：0 或者 1。通过这种设计，网络可以具有较高程度的稀疏性，易于被压缩而不消耗太多内存。
ShuffleNet（https://arxiv.org/pdf/1707.01083.pdf）使用点组卷积和通道随机化来极大地减少计算代价，同时还能维持比 MobileNets 高的准确率。事实上，它们可以在超过 10 倍的运算速度下达到早期最先进的分类 CNN 的准确率。
Network Pruning（https://arxiv.org/pdf/1605.06431.pdf）是为了减少运行时间和内存消耗而删除 CNN 的部分权重的技术，而且有希望不降低准确率。为了保持准确率，被删除的部分应该对最终结果没有大的影响。链接中的论文展示了使用 ResNets 可以轻易地做到这一点。

网络深度

这个比较容易：通常增加更多地层会提升准确率，同时会牺牲一些速度和内存。然而，我们已经意识到的是这种权衡受制于边际效应，也就是说，我们增加的层越多，通过增加每一层而带来的准确率提升将越少。

激活函数

关于激活函数，最近有很多争议。然而，很好的一个经验法则就是从 ReLU 开始。使用 ReLU 通常会在开始的时立即得到一些好的结果。不像 ELU、PReLU 或者 LeakyReLU 一样还需要一些繁琐的调整。当你确定你的设计使用 ReLU 能够达到不错的效果，那你就可以调整其它的部分，并调整它们的参数，以尝试对准确率做最后的提升。

卷积核大小

你也许认为使用更大的卷积核总会导致最高的准确率，同时还会损失速度和内存。然而，情况并不总是如此，因为研究中多次发现使用较大的卷积核会使得网络难以发散。使用更小的核（例如 3×3）会更好一些。ResNet 和 VGGNet 都相当全面的诠释了这一点。正如这两篇论文所展示的，你也可以使用 1×1 的核来减少特征的数目。

空洞卷积

为了能够使用远离中心的像素，空洞卷积（Dilated Convolution）在卷积核的权重之间使用空格。这使得网络不用增加参数数目就能够指数级地扩展感受野，也就是说根本没有增加内存消耗。已经证明，空洞卷积可以在微小的速度权衡下就能增加网络准确率。

数据增强

你应该经常做数据增强。使用更多的数据已经被证明能够持续地增强性能，甚至达到极限（https://arxiv.org/pdf/1707.02968.pdf）。使用数据增强，你可以免费获得更多数据。增强类型取决于你的应用。比如，如果你做的是无人车的应用，你可能会遇到路上的车、树以及建筑物，所以，将你的图像垂直翻转是没有意义的。然而，你一定会遇到由于天气变化或者场景变化而引起的光线改变，通过改变光线和水平翻转来增强数据是有意义的。可以看一下这个数据增强库（https://github.com/aleju/imgaug）

训练优化器

当你最终要训练网络的时候，有几种可以选择的优化算法。很多人说 SGD 在准确率方面会得到最好的结果，在我的经验看来，这是正确的。然而，调整学习率设置和参数是枯燥的，也是具有挑战性的。另一方面，虽然使用自适应的学习率（例如 Adam,、Adagrad 或者 Adadelta）比较容易，也比较快速，但是你可能得不到和 SGD 一样的最优准确率。

最好就是让优化器遵循和激活函数一样的「风格」：先使用最容易的，看看它是否奏效，然后使用更复杂的来调节和优化。我个人推荐以 Adam 作为开始，因为根据我的经验，它最容易使用：设置一个不太高的学习率，一般默认 0.0001，然后你通常会得到一些非常好的结果。随后你可以从零开始使用 SGD，或者甚至以 Adam 作为开始，然后使用 SGD 精调。事实上，这篇文章发现使用 Adam，中间换到 SGD，能够以最容易的方式达到最好的准确率。看一下论文中的这张图：

类别均衡

很多情况下你会遇到不均衡数据，尤其是在现实应用中。举一个现实中的简单例子：由于安检原因，你在训练深度网络来预测输入视频中的某人是否持有杀伤性武器。但是在你的训练数据中，你只有 50 个视频中的人持有武器，而 1000 个视频中的人是没有持有武器的！如果你立即使用这些数据训练你的网络，你的模型一定会以很高的偏差偏向于预测某人未持有武器。

可以用以下的方法来解决类别不均衡问题：

在损失函数中使用类别权重。本质上，样本数量不足的类别在损失函数中接受较高的权重，这样的话特定类别的误分类会在损失函数中导致较高的误差。
过采样：对训练样本中数量不足的类别进行重复采样，这样有助于样本分布的均衡化。当可用数据较少的时候这个方法最能奏效。
降采样：你也可以简单地跳过包含过多样本的类别中的一些训练样本。当可用数据非常多的时候，这个方法最奏效。
数据增强：对少数类别的数据进行数据扩增。

优化你的迁移学习

对大多数应用而言，使用迁移学习要比从零开始训练网络更加合适。然而，需要选择的是：你要舍弃哪些层，保留哪些层。这非常依赖于你的数据。你的数据和预训练网络（通常是在 ImageNet 上训练）所用的数据越相似，你需要重新训练的层就越少，反之亦然。例如，假设你要训练网络来区分一张图片是否包含葡萄，所以你会有大量的包含葡萄和不包含葡萄的图像。这些图像和 ImageNet 中使用的图像相当相似，所以你仅仅需要重新训练最后几层，或许只需要重新训练全连接层。然而，倘若你要分类的是一幅外太空的图像是否包含一颗行星能够，这种数据和 ImageNet 中的数据大有不同，所以你还需要重新训练后边的卷积层。简而言之，应该遵循以下的原则：

总结

本文给出了用于图像分类应用而设计 CNN 的全面指南。希望你能够愉快地阅读本文，并学到一些新的、有用的东西。

原文链接：

https://ift.tt/2qHyBXS

]]> 原文： https://ift.tt/2wKNEWn

机器知心

SGD过程中的噪声如何帮助避免局部极小值和鞍点？

当我们着手训练一个很酷的机器学习模型时，最常用的方法是随机梯度下降法（SGD）。随机梯度下降在高度非凸的损失表面上远远超越了朴素梯度下降法。这种简单的爬山法技术已经主导了现代的非凸优化。然而，假的局部最小值和鞍点的存在使得分析工作更加复杂。理解当去除经典的凸性假设时，我们关于随机梯度下降（SGD）动态的直觉会怎样变化是十分关键的。向非凸环境的转变催生了对于像动态系统理论、随机微分方程等框架的使用，这为在优化解空间中考虑长期动态和短期随机性提供了模型。

在这里，我将讨论在梯度下降的世界中首先出现的一个麻烦：噪声。随机梯度下降和朴素梯度下降之间唯一的区别是：前者使用了梯度的噪声近似。这个噪声结构最终成为了在背后驱动针对非凸问题的随机梯度下降算法进行「探索」的动力。

mini-batch 噪声的协方差结构

介绍一下我们的问题设定背景。假设我想要最小化一个包含 N 个样本的有限数据集上的损失函数 f:R^n→R。对于参数 x∈R^n，我们称第 i 个样本上的损失为 f_i(x)。现在，N 很可能是个很大的数，因此，我们将通过一个小批量估计（mini-batch estimate）g_B：来估计数据集的梯度 g_N：。其中，B⊆{1,2,…,N} 是一个大小为 m 的 mini-batch。尽管 g_N 本身就是一个关于梯度 ∇f(x) 的带噪声估计，结果表明，mini-batch 抽样可以生成带有有趣的协方差结构的估计。

引理 1 (Chaudhari & Soatto 定理：https://arxiv.org/abs/1710.11029)：在回置抽样（有放回的抽样）中，大小为 m 的 mini-batch 的方差等于 Var(g_B)=1/mD(x)，其中

该结果意味着什么呢？在许多优化问题中，我们根本的目标是最大化一些参数配置的似然。因此，我们的损失是一个负对数似然。对于分类问题来说，这就是一个交叉熵。在这个例子中，第一项是对于（负）对数似然的梯度的协方差的估计。这就是观测到的 Fisher 信息。当 N 趋近于正无穷时，它就趋向于一个 Fisher 信息矩阵，即相对熵（KL 散度）的 Hessian 矩阵。但是 KL 散度是一个与我们想要最小化的交叉熵损失（负对数似然）相差甚远的常数因子。

因此，mini-batch 噪声的协方差与我们损失的 Hessian 矩阵渐进相关。事实上，当 x 接近一个局部最小值时，协方差就趋向于 Hessian 的缩放版本。

绕道 Fisher 信息

在我们继续详细的随机梯度下降分析之前，让我们花点时间考虑 Fisher 信息矩阵 I(x) 和 Hessian 矩阵 ∇^2f(x) 之间的关系。I(x) 是对数似然梯度的方差。方差与损失表面的曲率有什么关系呢？假设我们处在一个严格函数 f 的局部最小值，换句话说，I(x∗)=∇^2f(x∗) 是正定的。I(x) 引入了一个 x∗附近的被称为「Fisher-Rao metric」的度量指标： d(x,y)=√[(x−y)^TI(x∗)(x−y) ]。有趣的是，参数的 Fisher-Rao 范数提供了泛化误差的上界（https://arxiv.org/abs/1711.01530）。这意味着我们可以对平坦极小值的泛化能力更有信心。

回到这个故事中来

接下来我们介绍一些关于随机梯度下降动态的有趣猜想。让我们做一个类似中心极限定理的假设，并且假设我们可以将估计出的 g_B 分解成「真实」的数据集梯度和噪声项：g_B=g_N+(1√B)n(x)，其中 n(x)∼N(0,D(x))。此外，为了简单起见，假设我们已经接近了极小值，因此 D(x)≈∇^2f(x)。n(x) 在指数参数中有一个二次形式的密度ρ(z)：

这表明，Hessian 矩阵的特征值在决定被随机梯度下降认为是「稳定」的最小值时起重要的作用。当损失处在一个非常「尖锐」（二阶导很大）的最小值，并且此处有许多绝对值大的、正的特征值时，我很可能会加入一些把损失从朴素梯度下降的吸引域中「推出来」的噪声。类似地，对于平坦极小值，损失更有可能「稳定下来」。我们可以用下面的技巧做到这一点：

引理 2：令 v∈R^n 为一个均值为 0 并且协方差为 D 的随机向量。那么，E[||v||^2]=Tr(D)。

通过使用这一条引理以及马尔可夫不等式，我们可以看到，当 Hessian 具有大曲率时，更大扰动的可能性越高。我们还可以考虑一个在局部最小值 x∗ 周围的「稳定半径」：对于给定的 ϵ∈(0,1)，存在一些 r(x∗)>0，使得如果我们的起点 x_0 满足 ||x_0−x∗||

定理 1: 一个严格的局部最小值 x∗ 的稳定性半径 r(x∗) 与 ∇^2f(x∗) 的谱半径成反比。

让我们把这个结论和我们所知道的 Fisher 信息结合起来。如果在随机梯度下降的动态下，平坦极小值更加稳定，这就意味着随机梯度下降隐式地提供了一种正则化的形式。它通过注入各项异性的噪声使我们摆脱了 Fisher-Rao 范数所带来的不利泛化条件。

深度学习的启示：Hessian 矩阵的退化和「wide valleys」

在深度学习中，一个有趣的现象是过度参数化。我们经常有比做示例运算时更多的参数（d>>N）。这时，D(x) 是高度退化的，即它有许多零（或者接近零）的特征值。这意味着损失函数在很多方向上都是局部不变的。这为这些网络描绘了一个有趣的优化解空间中的场景：随机梯度下降大部分时间都在穿越很宽的「峡谷」（wide valleys）。噪声沿着几个有大曲率的方向传播，这抵消了 g_N 朝着这个「峡谷」的底部（损失表面的最小值）推进的趋势。

当前关注点：批量大小、学习率、泛化性能下降

由于我们在将 n(x) 加到梯度之前，按照 1/√m 的因子将其进行缩放，因此增加了批处理的规模，降低了小批量估计的整体方差。这是一个值得解决的问题，因为大的批量尺寸可以使模型训练得更快。它在两个重要的方面使得训练更快：训练误差在更少的梯度更新中易于收敛，并且大的批量尺寸使得我们能利用大规模数据并行的优势。但是，不使用任何技巧就增大批量尺寸会导致测试误差增大。这个现象被称为泛化能力下降（generalization gap），并且目前还存在一些为什么会出现这种情况的假说。一个流行的解释是，我们的「探索性噪声」不再有足够的力量将我们推出一个尖锐最小值的吸引域。一种解决办法是简单地提高学习率，以增加这种噪声的贡献。这种缩放规则非常成功（https://arxiv.org/abs/1706.02677）。

长期关注点：逃离鞍点

虽然泛化能力下降「generalization gap」最近已经成为了一个热门话题，但之前仍有很多工作研究鞍点的影响。虽然不会渐进收敛到鞍点（http://noahgolmant.com/avoiding-saddle-points.html），我们仍然可能附近停留相当长的一段时间（https://arxiv.org/abs/1705.10412）。而且尽管大的批量尺寸似乎会更易于产生更尖锐的最小值，但真正大的批量尺寸会将我们引导到确定的轨迹上，这个轨迹被固定在鞍点附近。一项研究（https://arxiv.org/abs/1503.02101）表明，注入足够大的各项同性噪声可以帮助我们逃离鞍点。我敢打赌，如果噪声有足够的「放大」能力，小批量的随机梯度下降（mini-batch SGD）会在造成训练困难的维度上提供足够的噪声，并且帮助我们逃离它们。

一旦我们解决了「尖锐的最小值」的问题，鞍点可能是下一个大规模优化的主要障碍。例如，我在 CIFAR-10 数据集上用普通的随机梯度下降算法训练了 ResNet34。当我将批量尺寸增大到 4096 时，泛化能力下降的现象出现了。在这一点之后（我最高测试了大小为 32K 的批量尺寸，有 50K 个训练样本），性能显著降低：训练误差和测试误差都仅仅在少数几个 epoch 中比较平稳，并且网络无法收敛到一个有效解上。以下是这些结果的初步学习曲线（即看起来比较丑、还有待改进）：

进一步的工作

目前提出的大多数处理尖锐的最小值/鞍点的解决方案都是围绕（a）注入各向同性噪声，或（b）保持特定的「学习率和批量尺寸」。我认为从长远来看，这还不够。各向同性噪声在包含「wide valley」结构的解空间中做的并不好。增加学习率也增大了对梯度的更新，这使得权重更新得更大。我认为正确的方法应该是想出一种有效的方法来模拟小批量噪声的各向异性，这种方法从学习率和批处理大小的组合中「解耦」出来。存在能够使用子采样梯度信息和 Hessian 向量乘积去做到这一点的方法，我正在进行这个实验。我很希望听听其它的关于如何解决这个问题的想法。与此同时，我们还需要做大量的理论工作来更详细地理解这种动态，特别是在一个深度学习环境中。

原文链接：https://ift.tt/2KZhYiWnoise.html

]]> 原文： https://ift.tt/2G9NtTK

机器知心

如何评估深度学习的性能？英伟达提出7大挑战

白皮书链接：https://ift.tt/2GaSwmR

PLASTER 代表的含义：

可编程性（Programmability）
延迟（Latency）
准确率（Accuracy）
模型大小（Size of Model）
吞吐量（Throughput）
能效（Energy Efficiency）
学习率（Rate of Learning）

可编程性

机器学习不仅在模型的规模和复杂性方面经历了爆炸性的增长，而且在神经网络体系结构的多样性方面也经历了类似的增长。即使是专家也很难理解模型的选择，然后选择合适的模型来解决他们的人工智能问题。

在对深度学习模型进行编码和训练之后，针对特定的运行时推断环境对其进行优化。英伟达使用两个关键工具解决训练和推理难题。在编码方面，基于人工智能的服务开发人员使用 CUDA，这是一个并行计算平台和 GPU 通用计算的编程模型。在推断方面，基于人工智能的服务开发人员使用了英伟达的可编程推断加速器 TensorRT。

CUDA 通过简化在英伟达平台上实现算法所需的步骤来帮助数据科学家。TensorRT 可编程推断加速器采用经过训练的神经网络，并对其进行优化以用于运行时部署。它测试浮点数和整数精度的不同级别，以便开发人员和运算过程能够平衡系统所需的准确率和性能，从而提供优化的解决方案。

开发人员可以直接在 TensorFlow 框架中使用 TensorRT 来优化基于人工智能的服务交付模型。TensorRT 可以从包括 Caffe2、MXNet 和 PyTorch 在内的各种框架中导入开放神经网络交换 ( ONNX ) 模型。虽然深度学习仍然是在技术层面编码，但这将帮助数据科学家更好地利用宝贵的时间。

延迟

人和机器做决策或采取行动时都需要反应时间。延迟就是请求与做出回应之间所需要的时间。大部分人性化软件系统（不只是 AI 系统），延迟都是以毫秒来计量的。

由于 Siri、Alexa 等语音接口的出现，语音识别成为了很常见的一种应用。在消费者与客服领域，虚拟助手是很大的一种需求。但是，当人们接入虚拟助手时，即使数秒的延迟都会让人感觉不自然。

图像和视频管理是另一种需要低延迟、实时推理服务的应用。谷歌曾表示，7 毫秒是图像和视频管理应用的最优化延迟。

另一个例子是自动翻译。早期基于程序、专家系统的设计，不能理解高速语言的细微差别，难以提供实时会话。现在，深度学习进一步改进了机器翻译。

准确率

虽然准确率对每个行业来说都不可或缺，但对医疗保健行业来说尤其重要。在过去的几十年中，医学成像技术有了很大进步，增加了其在医疗中的使用量，并且需要更多的图像分析来确定医学问题。医学成像的进步和使用还意味着必须把大量数据从医疗器械传给医学专家进行分析。解决数据量问题有两个选择：一是以较长延迟为代价传输完整信息，二是对数据进行采样并使用技术对其进行重建，但这些技术可能导致错误的重建和诊断。

深度学习的一个优点是可以以高精度进行训练，并且以较低精度实现。深度学习训练可以在更高级别的数学精度上非常精确地进行，通常选择 FP32。然后在运行时可以用较低精度的数学来实现，通常选择 FP16，从而获得改良的吞吐量、效率甚至延迟。保持高准确率对于最佳用户体验至关重要。TensorRT 利用 Tesla V100 Tensor Core 的 FP16 处理以及 Tesla P4 的 INT8 特性来加速推断，与 FP32 相比，其推理速度提高了 2 - 3 倍，同时准确率损失接近零。

基于人工智能的服务开发人员可以优化其深度学习模型以提高效率，然后在工作中以较低代价实现这些模型。

图 2：TensorRT 降低了精度的推断性能

模型大小

深度学习模型的大小和处理器间的物理网络容量都对性能有所影响，特别是在延迟和吞吐量方面。深度学习网络模型数量激增，模型大小和复杂性随之增加，也因此能够做更复杂的分析，满足了更强大系统的训练需求。在深度学习模型中，计算力和物理网络扩展的原因是：

网络层数量
每层节点（神经元）数量；
每层计算复杂度
一个网络层节点间连接的数量以及相邻层间节点的数量

深度学习市场还处于早期阶段。在对比模型大小时，当前的思路都归结于物理关联：深度学习模型大小与计算和推理所需的物理网络资源成正比。例如，当开发者优化一个已训练深度学习模型来保证推断准确率和延迟时，可能会降低计算精度、简化每个模型网络层或者简化模型网络层间的连接。然而，使用更大的已训练模型往往会带来更大的优化模型来做推断。

图 3：深度学习模型大小

吞吐量

吞吐量用来表述：在给定创建或部署的深度学习网络规模的情况下，可以传递多少推断结果。开发人员越来越多地在指定的延迟阈值内优化推断。虽然延迟限制可确保良好的客户体验，但在此限制内最大化吞吐量对于最大限度地增加数据中心效率和收益至关重要。

人们倾向于把吞吐量作为唯一的性能指标，因为每秒计算的次数越多，其他领域的性能就越好。但是，如果系统无法在指定的延迟要求、电源预算或服务器节点数内提供足够的吞吐量，那它最终将无法很好地满足应用程序的推断需求。如果吞吐量和延迟之间缺乏适当的平衡，结果会是较差的客户体验、服务等级协议（SLAs）缺失，以及服务可能出现故障。

娱乐业长期以来一直把吞吐量作为关键性能指标，尤其是在动态广告投放中。例如，品牌赞助商将广告动态地置于诸如电视节目或体育赛事的视频流中。广告商想知道其广告出现的频率，以及它们是否传达给了预期受众。了解这些投放的准确性和焦点对于广告商来说至关重要。

图 4：直播时的图像识别

能效

随着深度学习加速器性能的提高，深度学习加速器的能耗也飞速增加。为深度学习解决方案提供 ROI 涉及了更多的层面，而不能仅仅看到系统的推断性能。能耗增长会快速增加提供服务的成本，这推动了在设备和系统中对提高能效的需求。

例如，语音处理中通常需要海量处理来提供自然语音的智能应答。提供实时语音处理的数据中心推断通常涉及大量计算机资源的支撑，并给企业总成本带来很大的影响。因此，行业中使用每瓦特推断数（inferences-per-watt）来度量运营状况。超大规模数据中心追求能效的最大化，以在固定电源预算的情况下提供尽可能多的推断。

解决方案不是仅仅看哪些单独的处理器拥有更低的能耗。例如，如果某个处理器的功率是 200W，另一个处理器的功率是 130W，这并不表示 130W 的处理器系统更好。如果 200W 的系统能以 20 倍的速度更快地完成任务，那么它的能效更大。

每瓦特推断数还取决于训练过程和推断过程中的延迟因素。能效不仅取决于过程中的纯能耗，还取决于吞吐量。能效是另一个展示 PLASTER 元素相互关联的例子，并且必须在完整的推断性能图景中被考虑到。

学习率

近年来，企业开始实施开发运营，使用更强大的系统和更高级的编程工具，让开发和业务变得更加紧密。虽然深度学习仍处于起步阶段，但很多等待利用深度学习的学术、政府和商业机构却并非如此。他们想要的不是利用空洞而静态的数据训练出来的推断引擎。「AI」中包含了智能（intelligence）一词，用户希望神经网络能在合理的期限内进行学习和适应。为了让复杂的深度学习系统推动商业发展，软件工具开发者必须支持开发运营。

随着组织机构继续对深度学习和神经网络进行实验研究，他们将学习如何更有效地构建和实现深度学习系统。由于推断服务持续接收新数据并且服务本身也在增长和变化，深度学习模型必须周期性地重新训练。为此，当新数据到达时，IT 机构和软件开发者必须更快地重新训练模型。多 GPU 服务器配置已经使深度学习训练时间从数周、数天降低到了数小时、数分钟。更快的训练时间意味着开发者可以更频繁地重新训练他们的模型以提高准确率或保持高准确率。目前一些深度学习实现已经可以每天重新训练多次。

可编程性也是学习率的一个影响因素。为了减少开发者工作流，谷歌和英伟达近日发布了 TensorFlow 和 TensorRT 的集成。开发者可以在 TensorFlow 框架内调用 TensorRT 来优化已训练的网络，从而在英伟达的 GPU 上高效运行。深度学习能够更好地整合训练过程和推断过程，因而更易成为开发运营的解决方案，帮助机构在迭代他们的深度学习模型时快速地实现变化。

参考链接：https://ift.tt/2KeWUDU

]]> 原文： https://ift.tt/2jWukfb

AI 人工智能新闻资讯

2018年5月13日星期日

专访贝索斯，做一个亿万富翁兼电商帝国缔造者是一种怎样的体验？

机器知心

高捷资本创始人黎蔓：人工智能驱动下的中国制造

机器知心

赛尔推荐 | 第15期

一、

出处：AAAI 2018

二、

推荐人：石乾坤（研究方向：股市预测）

论文题目：End-to-End Adversarial Memory Network for Cross-domain Sentiment Classification

出处：IJCAI 2017

简评：情感分析指的是对一句话的情感倾向（表扬/批评）进行分析，自然语言处理领域中，学者们经常使用亚马逊商品评论作为该领域的标准数据集，这些评论包括电子用品评论、书籍评论、DVD评论等。

三、

推荐组：TG

推荐人：耿昕伟（研究方向：文本生成技术研究）

论文主要相关：机器翻译双向解码

简评：传统的机器翻译模型在解码过程中由于使用RNN，所以其只能进行从左到右或者从右向左的单方向的解码。然而实际中发现从左到右和从右向左两种解码方式可以实现信息的互补，例如现在经常使用的双向RNN进行编码。

机器知心

Scikit-learn玩得很熟了？这些功能你都知道吗？

机器知心

2018年5月12日星期六

想入门设计卷积神经网络？这是一份综合设计指南

机器知心

SGD过程中的噪声如何帮助避免局部极小值和鞍点？

机器知心

如何评估深度学习的性能？英伟达提出7大挑战

机器知心

M2 模型杀回 Coding 和 Agent 领域，MiniMax 想要「普惠智能」-InfoQ每周精要No.900

标签

标签