2018年5月8日星期二

一文看尽Google I/O大会:AI打电话以假乱真,TPU 3.0正式发布

安妮 李根 发自 山景城 量子位 报道 | 公众号 QbitAI

今天凌晨,Google I/O 2018大会拉开帷幕。

开场一句Make good things together,然后就向全世界展示了AI将会带来的美好世界,2小时内,黑科技亮眼,情怀满分。

具体什么情况?量子位带你一文打尽。

开场

这次的核心串讲人还是Google CEO皮猜。

他说今年有7000人来到现场,见证AI带来的焕然新机,也会看到AI正在带来的巨大变革和机遇。

当然,Facebook事件当前,皮猜也谈到了AI和隐私、技术和价值观的看法。他认为技术更核心的是正能量,但在隐私和道德等层面,也需要谨慎前行,而Google对此深怀责任感。

比如在印度,Google的医疗AI正在进行视网膜筛查心脏病和糖尿病,可以解决医疗资源不公的问题。而同样还是AI加持,Gboard(谷歌输入法)能够让使用摩斯码设备进行交流的残障人士更好生活。

Google还把使用摩斯码设备进行交流的残障人士请到现场,于是会场掌声雷动,持续许久。

不过,这只是Google情怀开胃菜,新品新动作的正餐端上,每一个都藏着AI对于世界的热爱。

我们一款一款看。

首先介绍的是,AI对于Google几款核心产品的变革。

Gmail:脑补回复

可以更加智能化写邮件,运用机器学习可以在你键入时实时推荐"你可能会用"的短语,让你只要不断点击确认键就行。

这个功能被称为"Smart Compose",5月末正式向全体用户上线。

Google Photos:智能P图

如今,每一天有超过50亿张的照片在Google相册中被查看。

而Google希望用AI带来的全新功能,让照片查看更简单。

一方面,识别和分享。可以帮你归类婚礼等活动照片,通过Smart Actions功能圈出好友更方便分享,以及把文件照片直接变成PDF扫描文件,让你更方便阅读。

另一方面,智能P图。利用AI分割图像,不仅能修复过度曝光或曝光不足的照片,还可以对老照片\黑白照片进行色彩还原。

这自然不是一个轻轻松松的工作,也是计算力的霸气外露,所以皮猜顺便表示:这是Google使用了特殊定制设计的机器学习芯片的结果。

即TPU。

TPU 3.0:比上一代强悍8倍

现在正式推出TPU 3.0,相比去年发布的2.0版本,性能提升8倍,高达100 petaflops,而且由于芯片太强大,Google第一次引入液体冷却方法——对于希望为机器学习创建定制硬件的公司来说,散热越来越成为一个难题。

皮猜同时强调,强大的TPU是Google AI更多完美使用的关键。

但谁才是Google AI最核心的应用?Google助手。

Google助手打Call真假难辨

新版本的Google助手亮点不少。

首先是"声音",采用了DeepMind(在I/O上被cue不多见)的Wavenet技术,可以提供6种很自然的"人声",并且音色之完美,已经可以以假乱真。

其次是Google助手搭载量。

现在已经有5亿台设备接入了Google助手,支持30多种语言,进入了80多个国家和地区——但中国区域依然空白。

不过现场演示的第三方设备则来自中国,一台联想的带屏智能音箱,7月就会发售。

第三是Google助手最重要的应用设备——手机。

新版本更新后,用户就可以利用Google助手订外卖,不过是到店自取——这一点中国人民哪会大惊小怪。

值得一提的是,这其中也会打通Google助手+Google 地图。所以Google的思路再明显不过:让所有Google软硬件产品都有Google助手加持。

此外,Google助手将有更多视觉感知能力。

最后,最大惊喜来自Google助手的新能力:打Call!

比如打电话到美发沙龙。AI那声"嗯哼"笑翻全场。

比如你可以通过Google助手预约订座——没错,它会直接打电话到餐厅,然后与餐厅工作人员进行多轮对话,更恐怖的是,对面可能完全分不清到底是人还是AI。

现场演示也将本次I/O带入一个小高潮。

令人感慨的是,互联网时代的名句是"电脑后不知是人是狗",但AI降世,未来给你打电话的似乎也难辨是人还是AI。

当然,餐厅\服务组织也能用这个功能接听电话,可以省去不少人力成本。

(但求AI拨打的骚扰\营销电话晚一些到来……)

目前,这项功能还在继续开发中。

Google News:无死角式AI报道

下一个登场的是Google News。其更新可用个5字来形容:懂你,更懂你。

新推出的"For You"栏目将利用机器学习技术,更好了解用户行为,每次将为用户推荐5个可能感兴趣的故事。

Google还推出一种全新的视觉格式叫做Newscasts,利用自然语言理解技术为用户推荐单一主题的文章和视频。汇集不同的新闻源,帮你找到最全面的信息。

若用户还想深入到一个特定话题,那么新推出的"Full Coverage"(全覆盖)功能可以帮你看到与这个事件相关的各种信息,包括不同来源的文章、视频、评论评论甚至相关的其他连锁信息。

简单来说,GoogleAI学会了自己创造新闻专题,堪称360度无死角报道~

Android P:为电池增寿、防沉迷

Google News之后,下一代安卓系统来了,代号Android P。

不出所料,Android P中还是融入了AI技术。

那么,AI到底体现在了哪里?可以说相当有趣。

拯救手机没电一族,Google与DeepMind合作,正在研究自适应电池,用AI增加电池寿命

AI将监控你手机的电池消耗情况,并将关闭你暂时没有接触过的应用程序。"它还会根据你的习惯调整你手机的亮度,Google数据显示,Android P系统在唤醒应用程序时,平均会减少30%的CPU使用量。

此外,Android P还带来了全新的交互形式,提出了"Action"(动作)和"Slices"(切片)的新概念。现在,在Android P的搜索可以做到事半功倍,比如当你想找到Lyft应用时,可以直接显示应用程序,而无需在不同的应用程序之间进行切换。

用过安卓的你肯定记得之前系统下像三颗纽扣版的导航,在Android P中,这样的操作系统界面将和我们彻底说再见。

Android P的交互界面和iPhone X类似,通过手势进入不同的界面和功能。拥有一个全新样貌的指示板,显示你的玩手机的"活跃指数"。在App上耗时如何、解锁几次、收到多少通知……你的私人防手机沉迷小助手已经上线。

Android P将于今年夏天晚些时候面市,但今天的公开测试版可以从即将到来的1加6、已经到来的小米MIX 2S、OPPO R15 Pro、Vivo X21及Google、Essential、索尼、诺基亚等几款智能手机中抢先体验一把。

Dashboard:解救手机焦虑症

Android P中还有重点推出的Dashboard功能。

Google想通过这个功能,让用户能更"健康"使用智能手机,关注所谓"数字化健康"问题。

主讲人Sameer说,因为智能手机太方便,以致于休假时都要被不断碎片化打断。

所以在安卓 P 版本中,首先会推出Dashboard,可以让你更好知晓:智能手机的时间都去哪儿了。

你可以查看每个App的应用时间,以及它们到底给你发送了多少通知。

同时,还能设置刷YouTube和Twitter的时长,到时间就变灰。Wind Down。

最后,现在还推出了一个名为"Shush"("嘘")的新玩法,只要把手机背面向上扣在桌上,手机就会自动进入"勿扰"模式。

这部分演示时,现场多次响起了共鸣掌声,当然也有一些情怀的因素,毕竟在更多App开发者想方设法留住、消磨你更多时间的时候,Google却希望你能在数字化时代同样健康生活,而且Google也强调:数字福祉,将成Google未来的长期主题。

更关键的是,这种福利这次也与中国用户有关。即将推出的安卓 P Beta测试版,全球7家手机厂商中,中国真真占据"半壁江山":小米、一加、OPPO和vivo都成为了首批合作机型。

Google地图:路痴福音

接下来登场的是Google地图,毫无疑问依然由AI驱动。

先介绍了最近进展,比如绘制并覆盖了220个国家和地区,累计让10亿用户通过Google地图在全球各地旅行。

但是现在,AI驱动之后,Google可以直接使用AI和卫星图像结合的方式,将更多商户和新地址添加到地图中,这对于很多发展中国家都很重要。

所以AI也会进一步带来地图使用的变革,之前是告诉你"在哪儿",未来可以更多帮助你"去那儿"。

可以直接通过Google地图搜索"附近营业的串店",总之就是帮助你发现和体验身边的世界。

当然,AI也会带来个性化推荐,通过大数据挖掘分析(比如你的音乐喜好、常去路线)等给你推荐美食店之类的,该功能可以说是"Google想让你长肉"。

然而作为Google这样的企业,一方面思考让用户更方便,另一方面也尝试让商家效率更高,比如通过全网数据挖掘,更快更新中小企业信息、营业时间、服务方式等,节约这些组织的时间。

不过Google地图的AI加持,还没完。

相机:打通虚拟世界和现实世界

利用AI,Google地图和相机还实现了打通。

直接与Google街景结合,打通虚拟和现实,堪称路痴福利,把AR应用到了相机中,打开相机,就能AR指方向——你妈再也不用担心你走错了。

类似应用之前最核心的是Google Lens,一款拍照搜索的App。

现在,拍照翻译(拍菜单)、拍照购物(类似拍立淘),以及拍图识别文字(类似OCR)都会在数周后发布的新版本中上线。

而且!目前只在Google Pixel手机中的Lens,下一步将进入更多安卓智能机中,比如小米、一加、TCL。

总之,Google利用AI技术,带来了虚拟世界和现实世界的新连接方式,并且能够帮助解决更多现实问题。

OMT:Waymo进展

最后,今天还有"乱入"的Waymo。

作为同属Alphabet的Google兄弟公司,Waymo首次在I/O大会上登台介绍进展颇有其他意味。

Waymo CEO John Krafcik没说啥新进展。

首先,今年晚些时候,会在凤凰城地区推出Waymo无人驾驶出租车。"Waymo不是在造一辆更好的车,而是建设一个更好的司机。"

其次,Waymo接下来的路,还将是合作共赢模式。Waymo打算与许多不同的公司合作,而不会仅仅局限于某一家车厂。

跟开发者相关的是,目前机器学习技术在Waymo无人车设计中挑起大梁,将检测行人的错误率降低到之前技术的百分之一,甚至连穿着恐龙服饰的人都能识别出来了。

此外,Krafcik表示,深度学习技术是帮助Waymo走上L5级自动驾驶的重中之重,目前,在无人车的感知和预测方面起到了重要作用。还展示了如何应付下雪天。

最后,Krafcik交出了一份Waymo无人车测试成绩单:

迄今为止,Waymo已经在公共道路上行驶了超过600万英里,在模拟中行驶了超过50亿英里。目前,Waymo的模拟还没有停止,还在持续测试恶劣天气中的无人车表现。目前,每天接受测试的Waymo无人车,大约为2.5万辆。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2HZrNiQ
RSS Feed

RSS5

IFTTT

自动驾驶职位,offer哪里找?(美国版&中国版)

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

包括自动驾驶工程师们在内,所有职场人都要考虑去哪个城市发展。

毕竟,这牵扯到职业发展、家庭与社会关系、气候适应这些严肃的生活议题。当然,还有房价。

而统计不同行业、不同职位的城市分布,恰好是招聘/职场社交网站们的兴趣爱好之一,而这些网站的数据,给我们绘制了一副贴近实际的自动驾驶职位图谱。

需要决定去哪儿工作的自动驾驶工程师们,不妨参考一下。

美国版:老司机集中在硅谷

在LinkedIn上,2017年发布的自动驾驶职位数量比2016年增长56%,而与交通运输相关的其他传统行业,包括航空航天、汽车、运输等,这一增长只有7%,两者差了8.5倍

而自动驾驶职位的地区分部则颇为集中——其中大约一半都在旧金山。紧随其后的是匹兹堡,拥有LinkedIn上26%的自动驾驶工作机会;剩下的一小部分自动驾驶职位在波士顿凤凰城底特律,分别占7%、4%和3%。

提供这些职位的公司也五花八门:

有我们熟悉的*Uber、Lyft这些自动驾驶公司;还有高通、英伟达这些和自动驾驶紧密相关的芯片公司;美国汽车巨头福特和通用汽车;还有来自中国的滴滴和上汽、德国的博世和大陆、日本的丰田;……

仿佛所有的科技企业、汽车公司和为自动驾驶提供零部件的公司都把研发中心放在了美国,其中那些富有光环的大公司,其研发中心都在硅谷。

看来,技术氛围浓厚的硅谷地区,总是美国自动驾驶从业者就业的不二选择。

我们需要intern!

除了专业的技术人员,美国的自动驾驶行业还需要大量非正式员工。

它们就是实习生。根据2018年最新的LinkedIn数据,在自动驾驶行业所有发布的岗位中,实习生的数量排到了第三名,远超第十名的软件工程师。

当然,一个客观原因是因为各个岗位都需要实习生,而且人们更倾向于用LinkedIn这类社交网络来寻找实习生,但不容忽略的另一个原因是,人工智能行业实在是太缺人了,没有那么多已经毕业的人才可用。

不懂代码也没关系

讲到这里,如果你以为我们一直在讨论自动驾驶行业的技术人员,那可就大错特错了,在LinkedIn自动驾驶领域岗位数量前十名中,有一个非技术工种排到了第七名的高位(简直快要刚赶上实习生的需求量了)——那就是销售。

虽然自动驾驶汽车离完全向大众普及还有遥远的路途,但并不妨碍自动驾驶相关公司招聘销售,卖雷达、卖传感器、卖自动驾驶产业链上的某一部分技术成果或元器件,都是销售们施展机会的领域。

中国版:逃离北上广?不存在的

而在国内,自动驾驶相关的工作机会依然集中。

我们整理了智联、猎聘、BOSS直聘和拉勾网四家招聘网站上,搜索"自动驾驶"得出的职位数量记录,粗略估计了自动驾驶相关职位在中国各大城市的分布比例。

与硅谷一样,北京占据了中国自动驾驶职位数量的半壁江山,大约52%。

惊不惊喜?意不意外?别说逃离北上广,可能逃离北京都要费点功夫。

这52%并不仅仅是因为北京有最早ALL in AI的百度,以及虎视眈眈准备切入新赛道的美团京东等互联网公司,更重要的是北京拥有无与伦比的教育资源,并且氛围浓厚的创业投资环境催生出了大量新兴的无人驾驶公司。

这不重要,毕竟非首都功能会被疏解到雄安。

不过有一个好消息是,因为"没有互联网公司"而挨骂的上海这次可以开心一下了,大约23%的自动驾驶职位都在上海,将近全国的四分之一。

不仅商汤科技、驭势科技、威马汽车、地平线机器人这些耳熟能详的人工智能公司在上海有自动驾驶相关职位,腾讯、华为这些老牌科技公司也有上海的自动驾驶职位,另外,上面数据中还有以上汽为代表的传统汽车企业、汽车相关零部件制造商和一些初创的自动驾驶公司提供的职位。

除了北上两大城市之外,其他城市的职位数量均未超过10%。

深圳稍微多一点,大约占到9%,而杭州和广州分别在6%和5%。长三角的苏州和南京有一些零零星星的职位,而近期飞速发展的二线城市武汉和成都也可以提供一些自动驾驶相关机会。

值得一提的是,拥有传统车企的城市在未来也很有可能向北上深的自动驾驶从业者伸出橄榄枝,比如智联招聘上,位于重庆的长安汽车就挂出了几个系统、算法、硬件、测试相关的工程师职位。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2FUtUyR
RSS Feed

RSS5

IFTTT

自动驾驶职位,offer哪里找?(美国版&中国版)

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

包括自动驾驶工程师们在内,所有职场人都要考虑去哪个城市发展。

毕竟,这牵扯到职业发展、家庭与社会关系、气候适应这些严肃的生活议题。当然,还有房价。

而统计不同行业、不同职位的城市分布,恰好是招聘/职场社交网站们的兴趣爱好之一,而这些网站的数据,给我们绘制了一副贴近实际的自动驾驶职位图谱。

需要决定去哪儿工作的自动驾驶工程师们,不妨参考一下。

美国版:老司机集中在硅谷

在LinkedIn上,2017年发布的自动驾驶职位数量比2016年增长56%,而与交通运输相关的其他传统行业,包括航空航天、汽车、运输等,这一增长只有7%,两者差了8.5倍

而自动驾驶职位的地区分部则颇为集中——其中大约一半都在旧金山。紧随其后的是匹兹堡,拥有LinkedIn上26%的自动驾驶工作机会;剩下的一小部分自动驾驶职位在波士顿凤凰城底特律,分别占7%、4%和3%。

提供这些职位的公司也五花八门:

有我们熟悉的*Uber、Lyft这些自动驾驶公司;还有高通、英伟达这些和自动驾驶紧密相关的芯片公司;美国汽车巨头福特和通用汽车;还有来自中国的滴滴和上汽、德国的博世和大陆、日本的丰田;……

仿佛所有的科技企业、汽车公司和为自动驾驶提供零部件的公司都把研发中心放在了美国,其中那些富有光环的大公司,其研发中心都在硅谷。

看来,技术氛围浓厚的硅谷地区,总是美国自动驾驶从业者就业的不二选择。

我们需要intern!

除了专业的技术人员,美国的自动驾驶行业还需要大量非正式员工。

它们就是实习生。根据2018年最新的LinkedIn数据,在自动驾驶行业所有发布的岗位中,实习生的数量排到了第三名,远超第十名的软件工程师。

当然,一个客观原因是因为各个岗位都需要实习生,而且人们更倾向于用LinkedIn这类社交网络来寻找实习生,但不容忽略的另一个原因是,人工智能行业实在是太缺人了,没有那么多已经毕业的人才可用。

不懂代码也没关系

讲到这里,如果你以为我们一直在讨论自动驾驶行业的技术人员,那可就大错特错了,在LinkedIn自动驾驶领域岗位数量前十名中,有一个非技术工种排到了第七名的高位(简直快要刚赶上实习生的需求量了)——那就是销售。

虽然自动驾驶汽车离完全向大众普及还有遥远的路途,但并不妨碍自动驾驶相关公司招聘销售,卖雷达、卖传感器、卖自动驾驶产业链上的某一部分技术成果或元器件,都是销售们施展机会的领域。

中国版:逃离北上广?不存在的

而在国内,自动驾驶相关的工作机会依然集中。

我们整理了智联、猎聘、BOSS直聘和拉勾网四家招聘网站上,搜索"自动驾驶"得出的职位数量记录,粗略估计了自动驾驶相关职位在中国各大城市的分布比例。

与硅谷一样,北京占据了中国自动驾驶职位数量的半壁江山,大约52%。

惊不惊喜?意不意外?别说逃离北上广,可能逃离北京都要费点功夫。

这52%并不仅仅是因为北京有最早ALL in AI的百度,以及虎视眈眈准备切入新赛道的美团京东等互联网公司,更重要的是北京拥有无与伦比的教育资源,并且氛围浓厚的创业投资环境催生出了大量新兴的无人驾驶公司。

这不重要,毕竟非首都功能会被疏解到雄安。

不过有一个好消息是,因为"没有互联网公司"而挨骂的上海这次可以开心一下了,大约23%的自动驾驶职位都在上海,将近全国的四分之一。

不仅商汤科技、驭势科技、威马汽车、地平线机器人这些耳熟能详的人工智能公司在上海有自动驾驶相关职位,腾讯、华为这些老牌科技公司也有上海的自动驾驶职位,另外,上面数据中还有以上汽为代表的传统汽车企业、汽车相关零部件制造商和一些初创的自动驾驶公司提供的职位。

除了北上两大城市之外,其他城市的职位数量均未超过10%。

深圳稍微多一点,大约占到9%,而杭州和广州分别在6%和5%。长三角的苏州和南京有一些零零星星的职位,而近期飞速发展的二线城市武汉和成都也可以提供一些自动驾驶相关机会。

值得一提的是,拥有传统车企的城市在未来也很有可能向北上深的自动驾驶从业者伸出橄榄枝,比如智联招聘上,位于重庆的长安汽车就挂出了几个系统、算法、硬件、测试相关的工程师职位。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2FUtUyR
RSS Feed

RSS5

IFTTT

港中文林达华教授:迈出第一步,《人工智能基础(高中版)》是怎样炼成的


商汤科技联合创始人

香港中文大学 - 商汤科技联合实验室主任

林达华教授

2018 年 4 月 28 日,华东师范大学逸夫楼。

礼堂里座⽆虚席,⼤家翘首以待。随着舞台上的 "书" 被翻开,全球首部专为中学教学编写的⼈工智能教科书终于面世了。对于参与编写的每⼀个⼈来说,这是⼀个值得向至亲分享的时刻。

这部教科书的影响与意义也许需要更长的时间才能看清楚。但是,⼀群年轻⼈在⼀起去完成⼀件前⼈没有做过的事情,这样的经历肯定是值得铭记的。本文记述了这段充满挑战的历程,以及教材编写中的⼏次关键选择。

   "这是一个开创历史的机会"

2017 年 9 月,在⼀次研究会议后,我收到海龙(尚海龙,商汤科技香港公司总经理兼教育事业部总经理)的电话,他提到商务印书馆希望和商汤科技合作编写⼀部中学版⼈工智能教材。不久后,汤老师(汤晓鸥商汤科技创始人,香港中文大学信息工程系教授)也找到我商量编写教材的事情。这让我感到非常意外,也非常纠结。⼀⽅面,教科书的编写对我⽽⾔是⼀项全新的⼯作,我没有任何经验;另⼀⽅面,实验室的各项研究正在进⼊关键阶段,哪有余⼒开展这样⼀个⼤项目呢。可是,汤老师的⼀句话给了我很⼤的影响:

  • "人工智能进中学教材,这是历史上第⼀次。
  • 这是⼀个开创历史的机会。"

确实,这样的机会是难以抗拒的。⼀番天人交战后,跃跃欲试的雄⼼战胜了对困难的顾虑,我接下了这个任务。

   艰难的开始

2017 年 10 月 10 日,第⼀次教材工作会议在上海举⾏。商务印书馆,华东师范大学慕课中⼼,以及商汤科技的同事在华东师⼤商讨教材的编写计划。主持会议的是华东师范大学慕课中心主任陈玉琨教授。陈教授已经在基础教育耕耘数十载,桃李满天下,在教育界威望极⾼。我刚到会议室,陈教授主动起来到门口欢迎,这份尊重和礼遇让我颇为感动。

可是,接下来的会议并不顺利。

在会前,我准备了⼀份关于教材的大纲——那基本是⼤学机器学习教材的简化版。这份以知识为导向的大纲列出了我认为需要讲授的基础知识,包括分类,回归,无监督学习,和增强学习等⽅向。

这份大纲在会上受到了上海的中学老师们礼貌却又强烈的批评。⼤家认为,这些知识点过于艰深,根据这样的大纲编写的教材是无法在中学课堂讲授的。有部分老师提出,教材可以以科普为主,主要介绍基本概念和展示应用,不涉及背后的数学和算法。对于这种方式,我不能认同——这和参观展览馆有什么区别呢。

这次会议上的争论让我认识到人工智能研究和基础教育之间横亘着⼀道鸿沟。要把人工智能的知识和理念传递给中学的同学们,需要在鸿沟上架设⼀座桥梁。这是⼀个巨大的挑战,也是我们工作的意义所在。

会议开了整整⼀天,从早上 9 点到下午 5 点。经过反复深⼊的沟通,双方在教材设计原则上达成了基本共识:

  • 中学人工智能教学的目的不是把所有同学培养成人工智能专家,而是传递人工智能的基本思想和理念,培养动手能力和创造力,使得同学们在以后进入各行各业能自觉运用人工智能解决问题。

  • 兴趣与知识并重。通过生活中的应用发展同学们对人工智能的兴趣,并由此引入适合中学生接受的基础知识和基本算法。

  • 以实践为导向。在每个章节,以具体的应用为主线,把相关知识贯穿起来。为教材提供配套的实验平台和任务包。

这次会议的另⼀个重要成果是把团队建立起来,并确立了在编写过程中的合作方式。具体来说,就是商汤科技和香港中文大学的团队负责教材专业内容的设计和撰写,由上海六所重点中学老师组成的团队负责从教学的角度提出反馈并对教学语⾔的运用提供指导意见。最后双方合作统稿。

   从 0 到 1

从上海回来后,我开始拟定教材的大纲。大纲的设计思路源于海龙提出的八个字:"耳聪目明,心灵手巧"。最初的大纲把教材分为七个章节:

一. 总论:人工智能概述

二. 经典图像分类(目明)

三. 深度学习(目明)

四. 音乐风格分类(耳聪)

五. 相册聚类

六. 自然语⾔理解(心灵)

七. 生成模型(手巧)

机器学习的角度,这个大纲涵盖了三种重要的学习方式:监督学习(第二 - 四章),非监督学习(第五 - 六章),和生成模型(第七章)。

在实验室其他教授的支持下,我在实验室内部组建了编写团队。第⼀章总论由我撰写,其余六章各由⼀位实验室的同学负责。他们根据我发出的每章细则来进行具体的内容编写。汤老师指出,这部教材的编写是开创历史的工作。因此,我们在教材编写之初就订立了⼀条铁律:

  • 坚持原创。
  • 每⼀段话都必须自⼰撰写,
  • 每⼀幅教学示意图都必须自⼰设计。

从 2017 年 10 月中开始,同学们就开始了各自的编写工作,在这个过程中,我们和上海的老师们保持了密切的沟通。2018 年 1 月 15 日,教材的初稿完成。

   波澜再起

2018 年 1 月 20 号,由商汤团队和上海老师参与的全体会议再次举行,集体对初稿进行审议。

初稿的完成使大家备受鼓舞。可是,随着会议的进⾏,我们发现有点高兴得太早了。在这次会议上,波澜再起。双⽅争论的焦点落在了第⼆章(经典图像分类)和第三章(深度学习)。这两章是全书的知识基础,它们的成败决定了全书的成败。虽然负责这两章的编委付出了很大的努力以尽可能通俗的方式讲授,可是效果还是不能令人满意。

  • 什么是数据?什么是特征?
  • 什么是权重?什么是卷积?

参与审稿的老师们在会议上直⾔指出,初稿中对这些最基础的概念没有讲清楚。编委们在日常的研究工作中对这些非常基本的名词可以说是习以为常,可是真要向零基础的同学讲清楚它们的涵义却并不容易。两个多月辛苦得到的是尖锐的批评。今天回想起来,我依旧能感受到编委同学在当时的苦闷和委屈。可是,⼀部高质量的教科书,不经锤炼又如何能出来呢。

在会议上,老师们还指出,第⼆章⼀下子引入了太多基础概念,担心同学们难以接受,希望把众多概念在全书中循序渐进地展开,让学习曲线变得平缓⼀点。要实现这⼀点意味着第⼆章和第三章整个需要推倒重来,重新设计。

会议结束后,我让相关的编委组成攻关小组重新设计编写这两个基础章节,并且把我的⼀个博士后研究员王若晖调进来支援这项任务。在新的设计中,我们调整了章节内容:在第⼆章只讲模式识别的⼊门知识和基本的分类器,使用的应用例子改用可以直观说明的简单属性特征,并把图像处理的知识移到第三章,从而降低了第⼆章的概念密集度。在第三章中把图像滤波的知识和卷积特征提取进行有机融合,使得对卷积的介绍获得更具体的应用背景支撑。此外,大家还⼀起对所有的基本概念以及它们的衔接关系进行梳理,并且在教材中加入大量具体的例子和图表,让读者可以更形象地理解它们。这些工作取得了明显的成效,后来参与审稿的同事和老师都表示新修订的章节更容易读懂了。

第三章的修订过程中,编委们对于如何处理生物神经网络和人工神经网络的关系也进行了深入讨论。传统的神经网络大学教材往往是从生物神经网络说起,然后引入人工神经网络。我们认为这种讲授方式很容易让读者产生 "仿生学" 的联想,这显然是不科学的,也不符合现代主流的设计和研究思路。讨论后,我们决定依照当代研究领域的主流观点,主要从特征学习的角度讲述卷积神经网络的意义,淡化它和生物神经网络的联系,以避免读者形成不恰当的理解。

   争分夺秒,二度大改

二月初,对初稿的修订完成后,我把第⼆稿发给汤老师重新审阅。汤老师看过后,认为仍然有很大的改进空间,并提出了三个重要的意见:

  • 这⼀稿在图文并茂上仍然不足,需要提高插图的数量和质量。

  • 加入视频理解和 AlphaGo 相关的章节,这代表人工智能发展的新高度。

  • 科普部分需要加强,不仅要讲好基础知识,对于人工智能的最新发展也要进行概要性的介绍,培养同学们对人工智能更大的兴趣。

实施这些意见对于提高整个教材的水平是十分有帮助的。可是,这时候离原定四月份的发布时间只剩下两个月了,还来得及吗?为了做出决定,我给乔宇,海龙与戴娟等几位兄弟实验室和相关部分的负责同事都打了电话,寻求他们的意见,得到了坚决的支持。我们决定,拿出商汤使命必达的决心,把我们的教材打造成⼀部精品。于是,公司和各联合实验室更广泛地动员起来:各联合实验室再调集五位博士加入编委团队,商汤设计部调来了三位设计师加班加点为教材制作插图,研发,工程,和商务团队的多位同事参与审阅和提出修订意见。参与教材相关工作的同事和同学迅速增加到接近三十⼈。

2018 年 2 月 25 号,全体会议又⼀次在上海举行。除了原编委团队外,多位新加入的商汤同事以及华东师大出版社的同仁也出席了会议。会议进行了⼀天,逐个章节进行审议。这次会议进展比较顺利,第三稿终于得到了老师们和出版社的认可。会议决定,抓紧时间根据会上提出的具体建议进行最后修订,在 3 月 5 日定稿交付出版。

   付梓前后

虽然 2-25 会议决定基于第三稿进行最后定稿,但是编委们都明白,这只是确定了结构和内容,但是这⼀稿在图文细节上还存在很多问题。行百里者半九十,我们必须在细节上精益求精,才能打造出⼀部让我们引以为豪的教科书。

从 2 月 26 号到 3 月 5 号的八天时间里,整个编委团队处于冲刺状态,为教材的定稿日夜不息地进行最后的努⼒。每⼀个章节都会有三位编委进行交叉检验,再交到我手上审阅。我们仔细检查了每个知识点,每个公式,每个图表,对不满意的表述反复讨论修改,对不满意的图表重新进行制作。

3 月 6 日凌晨 3 点,我们把第四稿作为定稿发给了出版社。

定稿交付后,我对比了第三稿和第四稿,虽然内容结构没有重大变化,但是很多段落都经过了重写,⼤部分图表都被重新绘制,整部教材再⼀次脱胎换骨。定稿交付了,可是编委们似乎并没有特别⾼兴。大家觉得这个交付的稿子是有遗憾的——很多地方其实可以做得更好,但是来不及在截止日期前完成了。

我们不甘心留下遗憾。

在和出版社的交流中,我们发现还有⼀次修订的机会。按照⼀般的出版流程,出版社在排版完成后,会把排好版的书稿发给我们,并给我们三天时间校验,在书稿上标示出需要修正的地方。于是,定稿交付后,我们继续进行未竟的修订工作,并把后补的修订⼀处处记录下来。最后修订完成时,我们在第四稿上又进行了⼀千多处局部修改。

3 月下旬,出版社给我们发来了排好版的书稿,我们在三天内把这⼀千多处修改逐⼀标示在书稿上。收到我们的反馈后,出版社震惊了。他们说,排版要重做了……

   发布

2018 年 4 月 25 日,在商汤人工智能峰会上,同事晓菊把⼀本出版社印好的教材交给我。我翻着书,眼前浮现的都是这大半年来艰辛的编写历程,书中的内容却没有仔细看进去了。海龙说,这是 "十月怀胎,⼀朝分娩" 的感觉。

4 月 28 日,华东师范大学逸夫楼,在多位领导,上百位重点中学校长,以及各方媒体的共同见证下,全球首部中学版人工智能教材发布。

  • 全书共有九章:

第一章. 人工智能:新时代的开启

第二章. 牛刀小试:察异辨花

第三章. 别具慧眼:识图认物

第四章. 耳听八方:析音赏乐

第五章. 冰雪聪明:看懂视频

第六章. 无师自通:分门别类

第七章. 识文断字:理解文本

第八章. 神来之笔:创作图画

第九章. 运筹帷幄:围棋高手

]]> 原文: https://ift.tt/2HZNxLs
RSS Feed

机器知心

IFTTT

阿里量子实验室推出量子电路模拟器「太章」:成功模拟81比特40层量子电路

据介绍,本次模拟任务只动用了阿里巴巴计算平台在线集群 14% 的计算资源。「太章」的创新算法通信开销极小,得以充分发挥平台在线集群的优势,在过去超级计算机上做不了的模拟任务,比如 64(8x8)比特 40 层的模拟,「太章」只需 2 分钟即可完成。

图 1:阿里巴巴「太章」模拟器与目前主要模拟器模拟谷歌随机电路的结果比较

量子计算可能颠覆当前的计算技术,是科学界和工业界研究的前沿热点。但量子计算的实现十分困难。目前,已经实现的高精度量子处理器也只有 20 几个量子比特。故而规模稍大的量子算法尚无运行的载体。模拟器的作用在于「承上启下」,往下可以帮助理解、设计硬件,向上可以承载算法和应用的探索和验证。「太章」首次使得测试和验证被称为「中等规模」50-200 比特的的量子算法成为可能, 从而为辅助设计中等规模量子算法、量子软件乃至量子芯片提供了一个有力的工具。

在通常的量子电路模拟方案中,需要存储量子状态的全部振幅,在此海量数据上同时模拟量子运算。这个方法要求不断地在众多的计算节点间交换数据,造成巨大的通讯开销。因此,过去这样的模拟任务往往都在超级计算机上进行。实验室团队基于施尧耘教授及其合作者 Igor Markov 在 2005 年提出的另一种模拟方案,发明了一个简单而有效的方法分解整个模拟任务,然后十分均衡地把这些子任务分配到不同计算节点上。「太章」的通信开销极小,这个优点使之十分适合分布式的计算平台。

图 2:「太章」模拟的随机量子电路规模(黑线)与谷歌量子硬件可以实现的规模 (红线) 比较(基于谷歌在 [Characterizing quantum supremacy in near-term devices] 中对 7x7 的估计)

作为基准的随机量子电路是谷歌提出为实现「量子霸权」的算法。「量子霸权」指的是量子处理器的规模和精度到达无法被经典计算模拟的程度。谷歌今年 3 月份提出了未来工作的目标:72 比特高精度的量子处理器。「太章」的结果表明这一计划中的处理器如果只运行该基准算法仍不足于达到量子霸权。

本次研究成果也提交到预印本网站 arXiv,文章并列第一作者为量子实验室量子科学家陈建鑫博士与实习生张放,作者还有实习生黄甲辰和 Michael Newman 博士。

论文:Classical Simulation of Intermediate-Size Quantum Circuits(中等尺寸量子线路的经典模拟)

论文链接:https://ift.tt/2I4l8zQ

我们在本文中介绍通用量子线路的一个分布式经典模拟算法,并展示计算通用随机线路的输出概率的数值结果。探究结果表明,相比之前报告的,使用阿里巴巴团队的数据基础架构和搜索技术部支持的计算机集群得到的结果,我们可以模拟更多的量子比特以及更大的线路深度。例如,计算线路深度为 40 的 8×8 量子比特的单幅值在之前已经报告超越了超级计算机的计算能力。我们的算法可以在 2 分钟内计算这个值,并仅使用计算机集群的小部分资源(大约 14% 的节点)。此外,通过成功地模拟 9×9×40、10×10×35、11×11×31 和 12×12×27 大小的量子线路,我们证明了利用真实物理参数的带噪声随机线路也有用经典方式进行模拟的可行性。这意味着更稳固的线路或者误差校正可能是由随机线路采样方向实现量子霸权的重要因素。

背景资料

2016 年,谷歌提出通过实现二维阵列 mxn 对应的量子比特上的一类特定随机量子电路来实现量子霸权的方案,这一类特定随机量子电路通常被称为量子霸权电路。在方案中,认为当该二维阵列上的比特数 (mn) 达到 50, 电路的深度(层数)到达 40 左右,现有世界上最强大的超级计算机也无法有效模拟这样的电路。

图 3:8x8 二维网格上一个深度为 20 的量子霸权电路对应的张量网络展示

谷歌的硬件团队希望将在 9 量子比特 1 维阵列中实现的 1% 读取误差,0.1% 单比特门误差,0.6% 两比特门误差保持到更大规模的量子系统来实现这样的霸权电路,并通过这个特定任务,实现量子硬件对当前世界上最强大的经典计算资源的超越。此后,若干研究团队纷纷在不同的超级计算机上对该类电路进行模拟。之前,全球最好的研究结果尚未同时达到 50 比特 40 层。

图 4:nxn 二维网格上,阿里量子实验室的计算随机电路输出每一个振幅的执行时间与电路深度的对应关系。

量子计算目前的模型中,有一类是量子电路模型,实现形式是将信息存储在量子比特中,通过类似经典逻辑门的量子门来实现计算。达摩院量子实验室团队量子科学家陈建鑫与实习生张放实现了一种基于分布式的通用量子电路模拟方案,并基于研究的模拟器对谷歌第一版的随机量子电路进行了测试。利用阿里计算平台的在线集群的少量计算资源 (14% 左右) 实验室团队成功使用「太章」模拟器模拟了 9x9 x40 也就是 81 比特 40 层随机电路,还分别成功模拟了 100 比特 35 层(10x10x35),121 比特 31 层(11x11x31)与 144 比特 27 层(12x12x27)的随机量子电路。

目前业界主流的模拟方案有两类,一类是存储量子状态的所有振幅,一类是对于任意振幅都可以迅速计算得到结果。第一类模拟方案,基本都在超级计算机上实现,因为存储 45 比特的量子状态需要 Petabyte 量级的内存,在存储这么多数据的同时对该量子态进行操作并进行计算,需要不断地在不同的计算节点之间交换数据,这样的通讯开销对于普通云服务是难以承受的。

在阿里巴巴计算平台的在线集群上,实验室团队采用了第二类模拟方案,通过快速有效的计算任意振幅,任务拆分后可以将子任务十分均衡地分配到不同节点,极少的通信开销使得模拟器适配现在广泛提供服务的云计算平台。

在本研究成果之前,对于两种模拟方案,全球尚未有研究团队可以成功模拟谷歌超过 50 比特 40 层的第一代随机测试电路。在达摩院量子实验室团队的模拟器内还可以每 2 分钟计算 64 比特 40 层随机电路的一个振幅。本次研究成果也已经以论文的形式在预印本网站 arXiv 上提交,文章并列第一作者为量子实验室量子科学家陈建鑫与实习生张放,作者还有实习生黄甲辰和 MichaelNewman 博士。

阿里巴巴量子实验室由美国密西根大学终身教授、世界顶级量子科学家施尧耘担任首席量子技术科学家、量子实验室主任。两次理论计算机最高奖哥德尔奖得主、匈牙利裔美国计算机科学家马里奥·塞格德(Mario Szegedy)于今年年初也加入该实验室。

]]> 原文: https://ift.tt/2HWgvfb
RSS Feed

机器知心

IFTTT

IBM、哈佛联合提出Seq2Seq-Vis:机器翻译模型的可视化调试工具

  • 项目演示地址:http://seq2seq-vis.io/
  • GitHub 地址:https://ift.tt/2wjF7JqSeq2Seq-Vis

图 1:(左图)Seq2Seq-Vis 中翻译视图(Translation View)示例:输入语句为「our tool helps to find errors in seq2seq models using visual analysis methods」,目标是将其翻译为德语。编码器和解码器之间对单词「seq2seq」的关注(attention)是正确的(红色高亮线条),但目标语言的语言词典 (language dictonary) 中并没有对应单词。观察「seq2seq」的编码器近邻词(右图)可以发现,另一个未知单词「hunki」与其距离很近。各种按钮能够支持用户完成更深层分析的交互需求。

介绍

基于神经网络深度学习方法在诸多人工智能任务中都表现出了惊人的提升效果,但复杂的结构也令人们很难解释其预测结果。基于注意力的 sequence-to-sequence models (seq2seq) [3, 49],通常也称为编码器-解码器(encoder-decoder)模型,就是这一趋势的范例。在很多诸如机器翻译自然语言生成、图像描述以及总结的应用场景中,seq2Seq 模型都表现出了当前最优的效果。最新研究表明,这些模型能够在特定的重要场景下,实现人类级别的机器翻译效果。

seq2seq 模型的强大性来自于其为对序列的处理和预测提供了一个高效的监督方法,而无需对源序列和目标序列间的关系予以人工指明。在同一个模型中,系统能够学会对源序列句进行重排、转换、压缩或扩展,进而输出目标序列。上述变换是通过一个巨大的内在状态表征实现对源序列的编码及之后的解码工作的。只要数据量充足,seq2seq 模型就能为预测序列的学习提供一个通用的实现机制。

虽然 seq2seq 模型的影响已经很明确了,但深度学习模型导致的复杂程度和不确定性的增加也带来了问题。通常,在给出预测时,这些模型的表现都像是一个黑箱,使得追踪错误源头也变得困难。而内部的潜在表征也使人们难以分析这些模型,因为它们将数据转化成了和原始序列相差甚远的结果。虽然这些性质是很多深度学习技术所共有的,但对于人类读者而言,语言中的错误会非常明显。例如,由于 seq2seq 翻译系统将「早上好」错误的翻译为了「攻击他们」,导致了一次错误的逮捕,最终成为一起广为人知的事故 [12]。除此之外,seq2seq 模型中更常见却也值得担忧的失败包括:机器翻译系统完全曲解了一句话,图像描述系统生成了错误的描述,或语音识别系统给出了错误的文本。

在理想情况下,模型开发者希望部署能够完全理解、相信其产生结果是正确的系统。但目前对于深度学习模型而言,这个目标依然难以实现。同时研究者相信,在「以一种通用的、可复现的方式实现表象化、可视化 seq2seq 系统中的错误」这一重大挑战面前,可视化分析社区能够有所帮助。

研究者开发了 SEQ2SEQ-VIS:一个能够通过实现以下三个目标,进而满足上述要求的可视化分析工具。

  • 检查模型决策:SEQ2SEQ-VIS 允许用户理解、描述并具体化 seq2seq 模型的错误,覆盖模型全部的五个阶段:编码器、解码器、注意力、预测、束搜索。

  • 连接样本和决策:SEQ2SEQ-VIS 展示了 seq2seq 模型基于潜在状态及其相关近邻,从训练数据中学到了什么。

  • 测试可选决策:SEQ2SEQ-VIS 提供了灵敏的交互方法,可以实现对模型内部进行操作。

图 1(或更完整的图 7)展示了 SEQ2SEQ-VIS 的全貌。它整合了模型组件的可视化(图 1 左)、特定样本的内在表征(图 1 中),和在一个由预先计算好样本组成的巨大离线语料库上实现的最近邻搜索(nearest-neighbor lookup)。

图 2:seq2seq 模型通过五个阶段,将源序列翻译为目标序列:(S1)将源序列编码为潜在向量,(S2)将其解码为目标序列,(S3)编码器和解码器之间实现注意,(S4)在每个时间步骤中,预测单词概率,(S5)(通过束搜索)搜索最佳翻译。

图 7:Seq2Seq-Vis 概述。两个重要视图:(a)翻译视图(Translation View)和(b)近邻视图(Neighborhood View)分别推动了不同的分析模式。翻译视图提供了(c)注意力的可视化,(d)每个时间步骤中 top-k 个单词预测,以及(e)束搜索树。近邻视图通过(f,g)状态轨迹的投影以及(h)针对一个特定模型状态的最近邻列表,更进一步展示模型学到了什么。

使用案例

图 10:一个日期转换模型翻译效果的比较。输入序列「March 21, 2000」和「May 21, 2000」仅有几个字符不同。(顶部)用于预测正确月份「3」和「5」的注意力集中在了其差异「y」和「rc」上。(左下)轨迹视图展示了编码器状态变化中的这一差异。(右下)近邻列表显示,在输入 M 后,模型依然未作出决策。

图 11:抽象总结的使用案例。输入句子「Russian defense minister Ivanov called Sunday for the creation of a joint front for combating global terrorism(俄罗斯国防部长 Ivanov 于周日呼吁联合抵抗全球性的恐怖主义)」可以有不同的总结形式。图中黄色方格展示了不同的前缀解码(prefix decode)设置下的抽象结果。顶部:无约束抽象;中间:将预测从「for」改成「on」后,为保证语法正确,导致模型自动加上了「world leaders」;底部:将第一个单词从「Russian」改为「Moscow」或「Russia」,句子进一步压缩后,依然保留了句意。

图 12:利用 WMT』14 数据完成语言翻译的使用案例。(顶部)注意力图展示了目标单词「he」的注意力并非仅集中在解码器「er」部分,而是同时注意力了后面的单词,甚至注意了距离很远的动词「gesprochen(说)」。解码器的状态轨迹(左下)显示「he」和「spoke」的距离非常接近。近邻列表表明,模型设置了一个阶段,其中预测「spoke」为下一个单词。

图 13:一个欠训练的英语-德语模型。在欠训练或欠参数化模型中,重复是一个很常见的现象。轨迹象形图显示,在「in Stuttgart」的重复中,解码器状态在同一个区域内在「in」和「Stuttgart」交替变化,直到将它们分离出来。

论文:SEQ2SEQ-VIS : A Visual Debugging Tool for Sequence-to-Sequence Models

论文地址:https://ift.tt/2HXVAsh

神经 Sequence-to-Sequence 模型已经通过许多序列预测任务证明了其具有准确、稳健的性质,也已经成为文本自动翻译的标准方法。Sequence-to-Sequence 模型的运行包含五个黑箱阶段,包括将源序列编码到一个向量空间中,再将其解码为新的目标序列。如今这是标准过程,但和许多深度学习方法一样,理解或调试 Sequence-to-Sequence 模型是很困难的。在本文中,研究者实现了一个可视化分析工具,使用户可以通过训练过程中的每个阶段,与训练好的 Sequence-to-Sequence 模型进行交互。其目标包含识别已被学到的模式,并发现模型中的错误。

]]> 原文: https://ift.tt/2wjDJ9T
RSS Feed

机器知心

IFTTT

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」-InfoQ每周精要No.900

「每周精要」 NO. 900 2025/11/01 头条 HEADLINE M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」 精选 SELECTED a16z 将 3000 万开发者标价 3 万亿 网友:几个初创公司 + 大模型就...