2018年3月31日星期六

震惊!腾讯要建AI鹅厂,百度让狗刷脸购物,锤子R-1真机披露

艾普若·傅思 发自 LZYY量子位 出品 | 公众号 QbitAI

不得了,今天堪称要载入AI史册。

按照老黄历的记载,今天这个普通又特别的戊戌年乙卯月癸亥日,"宜开光、开市、纳采……"等等。

在中国传统文化的感召下,国内科技大厂纷纷选择在今天公布重大进展。

腾讯、百度、锤子科技等都有令人震惊的新品发布。还等什么?一起来看下。

腾讯宣布建立AI生态鹅厂

鹅厂,是腾讯公司在坊间的爱称。

现在也是腾讯的最新战略。

腾讯公司今日宣布:筹备近两年的"AI生态鹅厂"已在贵州贵安新区完成项目主体建设,预计于年内投产运行。

在官宣文件中,将此描述为"布局互联网+农业、AI+农业、以及智慧零售的一次新尝试"。

腾讯布局人工智能已初布取得成果,这些新技术将有助于提升鹅厂的饲养效率和实行鹅性化措施。

除了在选址和建厂方面的高标准、严要求外,到底有什么AI之处?

比如,腾讯正在研发"鹅脸识别",严谨对待每一只大鹅;腾讯团队还在开发"鹅语翻译"。通过语音识别技术,更好的了解鹅的需求;腾讯还将通过AI医学产品,进一步保障大鹅的身体健康。

这有一段官方视频。一个宣传片,看个开头就可以了。没必要看到最后。切记、切记。

undefined_腾讯视频
AI鹅厂项目总监朱华特地补充,"云养鹅功能短期内不会对广东地区开放"。"有朋友说过,没有一只鹅能活着离开广东!"朱华表达了他的担忧。

百度让狗狗刷脸购物

百度坊间亦称"狼厂"。

当然百度今天发布的重磅产品,与狼无关……他们选择了与狼最接近的狗。

实际上,这款产品名为宠物面部识别系统SAFI。这款产品基于大数据、云计算、机器学习等技术,为家庭宠物提供最新的AI体验。

目前这款产品仅支持狗狗使用。

在SAFI的支持下,门禁系统可以准确识别狗狗的身份,使其拥有自主进出家门的能力,在外出散步玩耍时保障安全不走失。

而且,在狗脸识别技术的支持下,狗狗还能通过刷脸"独立进行消费购物"。

"所有技术的诞生,生而为人又不应止于人。"百度表示。

也有一段官方视频。

undefined_腾讯视频

当然,百度今天也有面向人类的产品泄露。

那就是——Apollo床。

据透露,"百度将发布首款智能跨界产品——Apollo床。这款Apollo床首次将智能床垫与百度自动驾驶解决方案相结合,追求行驶过程中打造完美睡眠。"

未来人类上班途中,可以乘坐自动驾驶的床前往。在大城市,上班可能需要耗时一个小时,以后这段时间,完全可以用来补觉。

百度还在筹划发起"多睡一小时"倡议,口号就是"躺着上班!"

锤子发布R-1

也是在这一天,罗永浩庄严宣布:拥有 10 大前沿创新科技的 Revolution One 撼世登场。

关于这款产品,还是看视频全面了解吧。

undefined_腾讯视频

目前这款产品的预定页面已经上线,访问 https://ift.tt/2GncuQ9 即可预定,感觉又是一个爆款,想要的同学抓紧了。

One More Thing

为何今天大厂击中发布重磅产品?

这样的一天,在科技史上有何玄机?

所有的答案,本文作者艾普若·傅思,已经在新产品"量你不知"中做出深度解读,有用户表示,阅读之后"醍醐灌顶、大彻大悟"。

"量你不知"是量子位研发5年推出的一款深度、全面的知识分享(付费)产品,旨在提升全国人民的科技认知水平,跟上时代步伐。

今天,也是这个产品上线内测第一天。量子位优惠酬宾,艾普若·傅思的回答原本售价只要999元,今天完!全!免!费!

只需要在量子位公众号(ID:QbitAI)对话界面,回复:"不知"两个字,就能立刻获得独家解答。

赶快行动吧!



via 量子位 - 知乎专栏 https://ift.tt/2GsVzHY
RSS Feed

RSS5

IFTTT

震惊!腾讯要建AI鹅厂,百度让狗刷脸购物,锤子R-1真机披露

艾普若·傅思 发自 LZYY量子位 出品 | 公众号 QbitAI

不得了,今天堪称要载入AI史册。

按照老黄历的记载,今天这个普通又特别的戊戌年乙卯月癸亥日,"宜开光、开市、纳采……"等等。

在中国传统文化的感召下,国内科技大厂纷纷选择在今天公布重大进展。

腾讯、百度、锤子科技等都有令人震惊的新品发布。还等什么?一起来看下。

腾讯宣布建立AI生态鹅厂

鹅厂,是腾讯公司在坊间的爱称。

现在也是腾讯的最新战略。

腾讯公司今日宣布:筹备近两年的"AI生态鹅厂"已在贵州贵安新区完成项目主体建设,预计于年内投产运行。

在官宣文件中,将此描述为"布局互联网+农业、AI+农业、以及智慧零售的一次新尝试"。

腾讯布局人工智能已初布取得成果,这些新技术将有助于提升鹅厂的饲养效率和实行鹅性化措施。

除了在选址和建厂方面的高标准、严要求外,到底有什么AI之处?

比如,腾讯正在研发"鹅脸识别",严谨对待每一只大鹅;腾讯团队还在开发"鹅语翻译"。通过语音识别技术,更好的了解鹅的需求;腾讯还将通过AI医学产品,进一步保障大鹅的身体健康。

这有一段官方视频。一个宣传片,看个开头就可以了。没必要看到最后。切记、切记。

undefined_腾讯视频
AI鹅厂项目总监朱华特地补充,"云养鹅功能短期内不会对广东地区开放"。"有朋友说过,没有一只鹅能活着离开广东!"朱华表达了他的担忧。

百度让狗狗刷脸购物

百度坊间亦称"狼厂"。

当然百度今天发布的重磅产品,与狼无关……他们选择了与狼最接近的狗。

实际上,这款产品名为宠物面部识别系统SAFI。这款产品基于大数据、云计算、机器学习等技术,为家庭宠物提供最新的AI体验。

目前这款产品仅支持狗狗使用。

在SAFI的支持下,门禁系统可以准确识别狗狗的身份,使其拥有自主进出家门的能力,在外出散步玩耍时保障安全不走失。

而且,在狗脸识别技术的支持下,狗狗还能通过刷脸"独立进行消费购物"。

"所有技术的诞生,生而为人又不应止于人。"百度表示。

也有一段官方视频。

undefined_腾讯视频

当然,百度今天也有面向人类的产品泄露。

那就是——Apollo床。

据透露,"百度将发布首款智能跨界产品——Apollo床。这款Apollo床首次将智能床垫与百度自动驾驶解决方案相结合,追求行驶过程中打造完美睡眠。"

未来人类上班途中,可以乘坐自动驾驶的床前往。在大城市,上班可能需要耗时一个小时,以后这段时间,完全可以用来补觉。

百度还在筹划发起"多睡一小时"倡议,口号就是"躺着上班!"

锤子发布R-1

也是在这一天,罗永浩庄严宣布:拥有 10 大前沿创新科技的 Revolution One 撼世登场。

关于这款产品,还是看视频全面了解吧。

undefined_腾讯视频

目前这款产品的预定页面已经上线,访问 https://ift.tt/2GncuQ9 即可预定,感觉又是一个爆款,想要的同学抓紧了。

One More Thing

为何今天大厂击中发布重磅产品?

这样的一天,在科技史上有何玄机?

所有的答案,本文作者艾普若·傅思,已经在新产品"量你不知"中做出深度解读,有用户表示,阅读之后"醍醐灌顶、大彻大悟"。

"量你不知"是量子位研发5年推出的一款深度、全面的知识分享(付费)产品,旨在提升全国人民的科技认知水平,跟上时代步伐。

今天,也是这个产品上线内测第一天。量子位优惠酬宾,艾普若·傅思的回答原本售价只要999元,今天完!全!免!费!

只需要在量子位公众号(ID:QbitAI)对话界面,回复:"不知"两个字,就能立刻获得独家解答。

赶快行动吧!



via 量子位 - 知乎专栏 https://ift.tt/2GsVzHY
RSS Feed

RSS5

IFTTT

CVPR2018 CMU&谷歌Spotlight论文:超越卷积的视觉推理框架

近年来,我们在图像分类 [ 16 ]、检测 [ 37 ] 或分割 [ 3 ] 等标准识别任务方面取得了显著进展,前馈端到端学习的 ConvNet 模型的使用在其中发挥了很大作用。空间和语义上的视觉推理对人类至关重要 [ 1 ],但我们目前的视觉系统与之不同,除了具有较大接受域的卷积之外,它们都缺乏语境推理。因此,当我们着眼于构建下一代视觉系统时,如何结合空间推理和语义推理就成为一个关键问题。

我们的目标是建立一个系统,该系统不仅可以提取、利用卷积特征的层次结构,还可以通过空间和语义关系来改进其判断。但什么是空间和语义关系?如何使用它们来提高识别能力?请看图 1。图 1 左上角是一个空间推理的实例:如果一行中四分之三的区域是「窗户」,那么第四个区域也可能是「窗户」。语义推理的一个实例(右下图)是识别「校车」,即使图中可见的校车很少或基本看不见——仅仅给出了「公交车」的实例及公交车与校车之间的联系。最后,空间-语义推理可以解释为:识别道路上的「汽车」应有助于识别「汽车」内的「人」。

图 1. 除了具有较大接受域的卷积之外,当前的识别系统缺乏推理能力,而人类可以通过探索空间、语义关系的丰富空间进行推理:例如,即使在有遮挡的情况下,人类也能推断出第四个「窗户」,或者驾驶「汽车」的「人」。为了弥补这一差距,我们提出了一个通用框架,该框架也使用上述关系进行迭代推理及预测。

利用关系进行推理的一个关键方法是迭代地进行预测。最近,已经有人尝试通过自顶向下的模块 [ 38,48 ] 或使用外显记忆 [ 51,32 ] 来整合这种推理。在使用自顶向下的模块时,具有基于类的信息的高层次特征可以与低层次特征结合使用,以提高识别性能。另一种架构是使用外显记忆。例如,Chen 和 Gupta [ 4 ] 展示了序贯对象检测,其中空间存储器用于存储先前检测到的对象,利用 ConvNets 的能力来提取有利于后续检测的密集语境模式。

然而,这些方法存在两个问题: a ) 两种方法都使用卷积堆栈来执行局部像素级推理 [ 11 ],该方式可能不具备允许更远区域直接传递信息的全局推理能力;b ) 更重要的是,这两种方法都假定训练数据中有足够的关系实例供模型从头开始学习,但是随着类数量的增加,关系呈指数级增长,数据可能出现短缺。许多语义推理需要从很少或近乎为零的实例中学习 [ 14 ]。因此,我们需要设法利用额外的结构化信息进行视觉推理。

本研究提出了一个空间推理和语义推理的通用框架。与目前仅依赖卷积的方法不同,我们的框架还可以从知识库 [ 5,56 ] 形式的结构化信息中学习视觉识别。我们算法的核心由两个模块组成,一个是基于空间记忆 [ 4 ] 的局部模块,利用 ConvNets 进行像素级推理。我们借助并行内存更新来大幅度提高效率。另一个是基于图结构的全局模块,用于在局部区域之外进行推理。

该模块由三个部分组成:

  1. 知识图,在该图中,我们将类表示为节点并建立边来编码它们之间不同类型的语义关系;

  2. 当前图像的区域图,在该图中,节点代表图像中的区域,边代表这些区域之间的空间关系;

  3. 将区域分配给类的分配图。

利用这种结构,我们开发了一个推理模块,专门用来传递该图中的信息。局部模块和全局模块两者迭代地转出并相互交叉馈送预测,以便细化预测。注意,局部推理和全局推理不是孤立的:良好的图像理解通常需要平衡先验学习的背景知识和图像特定观察之间的关系。因此,我们的完整管道通过「关注」[3] 机制连接了两个模块的力量,从而使模型在进行最终预测时能够依赖最相关的特征。

我们的框架展示了大大超越普通 ConvNets 的性能。例如,我们可以在 ADE [ 55 ] 上实现 8.4 % 的绝对提升,这是按每级平均精度衡量的,而通过加深网络仅可以提高约 1 %。

图 2. 推理框架示意图。

除了用于提供预测的普通 ConvNet 之外,该框架还有两个模块来执行推理:一个是使用空间存储器 Si 的局部模块 ( Sec. 3.1 ),该模块使用另一个 ConvNet C 进行推理;另一个是全局模块 (Sec. 3.2),该模块将区域和类视为图中的节点,通过在它们之间传递信息进行推理。这两个模块都接收组合的高级和中级特征,在交叉馈送信念的同时迭代地转出 ( Sec. 3.3 )。结合所有预测 fi 与注意 ai 产生最终预测 f(Sec. 3.4)。

图 3. 在具有多种类型的边的图形上直接传递信息的图示。图中的四个节点由两种类型的边进行连接。每个节点表示输入特征向量 mi (合称 M )。为边类型 j 学习加权矩阵 Wj 以变换输入。然后应用邻接矩阵 Aj 将信息传递给连接的节点。最后,通过累加所有边类型并应用激活函数来生成输出 G。

图 4. 在全局推理模块 R 中使用了两种推理路径。获得区域和类输入 M_r 和 M_c 之后,空间路径在区域图中直接传递信息,区域图含有区域到区域的边 E_r→r,而语义路径首先将区域分配给含有 E_r→c 的类,然后将信息传递给具有类到类边 E_c→c 的其他类,再传播回去。组合最终输出以生成输出区域特征 G_r。

表 1. 在 ADE test-1k 和 VG 测试中的主要结果。AP 是平均精度,AC 是分类精度。上标显示了高于基线的值。

图 5. 来自 ADE test-1k 的定性示例(最好放大来看)。

在突出显示的蓝色区域可以看出基线预测和我们的模型预测比较的结果。此外还列出了其他区域以提供语境。例如,经过推理后,「右腿」与「左腿」的混淆程度降低(左上图);尽管分辨率很低,但「桌面」上的「鼠标」被成功判断出来 (上面一行第三张图);「洗涤剂分配器」在「洗衣机」(右上图) 的语境中被识别出来。在右下角的图中,我们展示了一个失败案例,在该图中,语境没有帮助我们识别出「遥控器」,失败的原因可能是它以前从未出现在「床头柜」上,也没有语义关系可以提供帮助。

论文:Iterative Visual Reasoning Beyond Convolutions

论文链接:https://ift.tt/2Gu9Gg4

摘要:我们提出了一种新的迭代视觉推理框架。该框架超越了目前只具备卷积堆栈推理能力的识别系统。该框架由两个核心模块组成:一个是局部模块,使用空间记忆以并行更新的方式存储以前的信念;另一个是全局图形推理模块。我们的图模块由三个部分组成: a ) 知识图,在该图中,我们将类表示为节点并建立边来编码它们之间不同类型的语义关系;b ) 当前图像的区域图,在该图中,节点代表图像中的区域,边代表这些区域之间的空间关系;c ) 将区域分配给类的分配图。局部模块和全局模块迭代地转出并相互交叉馈送预测,以便细化预测。通过将两个模块中的最佳部分与注意机制相结合来进行最终预测。与普通 ConvNets 相比,我们的框架性能显著增强,例如,按每级平均精度衡量,我们可以在 ADE 上实现 8.4 % 的绝对改进。分析还表明,该框架对缺失区域具有较强的推理能力。

]]> 原文: https://ift.tt/2pUFMLT
RSS Feed

机器知心

IFTTT

登上《Cell》封面的AI医疗影像诊断系统:机器之心专访UCSD张康教授

2018 年 2 月 22 日出版的《Cell》封面文章介绍了由加州大学圣地亚哥分校(University of California, San Diego)张康教授主导的研究成果:一种基于迁移学习,能够精确诊断致盲性视网膜疾病与肺炎的人工智能工具。该方法的表现与专业医生能力相当,并可以在 30 秒内确定患者是否应接受治疗,准确度高达 95%以上;在区分病毒性肺炎和细菌性肺炎上,新方法的准确率也超过了 90%。同时,该研究也通过显示神经网络激活区域的方法向人们提供了机器诊断的可解释性。作为中国学者主导的又一项重要研究,该文章发表以后受到了人们的广泛关注。

论文链接:https://ift.tt/2ELnrX4

该研究的主要推动者张康,是加州大学圣地亚哥分校眼科教授、眼科遗传学主任,中国第三批「千人计划」入选者,四川大学客座教授。他曾在四川大学获得生物化学学士学位,哈佛大学医学博士学位(Magna Cum Laude 荣誉),麻省理工学院(MIT)联合医学博士学位及哈佛大学遗传学博士学位。张康在约翰霍普金斯大学 Wilmer 眼科研究所完成了眼科住院医生实习期,并曾在犹他大学完成视网膜手术专科训练。

张康教授的临床和研究重点是重大疾病的基础和转化研究,寻找新的基因靶标和治疗方法。

他曾在许多著名学术期刊上发表或共同撰写了超过 200 篇同行评议论文,其中涵盖遗传学、分子生物学、干细胞、肿瘤液体活检、3D 打印及组织工程、人工智能和临床试验等多个领域。其中关于 HTRA1 基因是黄斑变性的主要易感基因的 Science 文章曾被《Science》评为 2006 年世界科学十大进展之一。

在《Cell》上的文章发表之后,机器之心对张康教授进行了专访,我们与他对迁移学习、跨学科研究、AI 在医疗领域应用等问题进行了交流。

机器之心:发表在《Cell》上的论文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》,该研究是从何时开始启动的?

张康:我很早就有这个想法了,真正启动是在去年(2017 年)初。

机器之心:作为眼科教授,使用计算机科学领域中也是刚刚发展起来的机器学习工具进行研究,会遇到哪些困难?

张康:生物医疗科学和计算机科学是两个完全不同的领域。由于计算机科学的高速发展,我们面临的首要问题就是学习并结合这些最近开发的深度学习技术,以确保我们的研究对当前和未来的计算机视觉研究及应用是相关和有用的。深度学习引入可取代之前技术的新方法而改变了计算机视觉领域。然而,这个项目的主要挑战是获得大量的 OCT 图像,并组织一个庞大而结构化的视网膜专家体系,以确保尽可能准确地标记大数据,另外我们必须组织一个优秀人工智能小组。

机器之心:新研究的图像识别模型对计算机的算力要求有多高?

张康:该模型在 4 个 GTX 1080 8GB GPU 中进行了训练和测试。但是,由于该模型是使用预训练权重进行训练的,从而使训练时间比训练空白神经网络要少得多。因此,还可以在合理的时间内使用更小的 GPU 甚至多个 CPU 来完成此模型的训练和推理。

机器之心:神经网络的推理是一个「黑箱」,你们提出的新方法是如何解释计算机作出「诊断」的依据的?

张康:我们在视网膜 OCT 图像的研究中加入了「遮挡测试」——通过卷积一个遮挡核心到输入图像上,机器会通过计算预测做出正确诊断最可能的部位,并输出含有高亮色块的「遮挡」图,这些色块就是 AI「认为」的病变部位,得出直观的为临床医生信任的诊断依据。

机器之心:神经网络在识别医疗图像时相比人类医生具有哪些优势?

张康:首先,通过输入大量的数据,神经网络可以获得远超过人类医生的「经验」,计算出超越人类的准确结果,在我们的系统中,我们使用超过 20 万张医学图像,通过不同的疾病分类,最终使用近 11 万张视网膜 OCT 图像训练机器。在眼病方面,能在 30 秒内正确鉴别脉络膜新生血管、糖尿病黄斑水肿、玻璃膜疣以及正常视网膜的 OCT 图像,结果的准确率、敏感度、特异度均在 95% 以上,并能得出与人类相似甚至更高的准确率。其次,计算机对比图像像素与像素之间的差异,观察到人类关注不到的细节,从而得出更精准的判断,且不像人类一样受主观性干扰。另外,我们通过「迁移学习」这种算法,还能诊断不同系统的疾病,比如我们的系统目前还能准确鉴别肺炎和正常胸部 X 线平片,区分肺炎的病原体为细菌还是病毒,准确率可达 90% 以上。

机器之心:从医学学者的角度来看,人工智能技术在医疗领域里是否会像很多媒体报道的那样「超越,甚至代替人类医生」?

张康:在上一个问题已经回答了,在某些方面人工智能的确有可能超越人类医生。也许在不久的将来,比较单一的、流水线作业式的领域将会被取代。但是,现阶段人工智能的作用是辅助医生而非取代医生,发展人工智能,对医疗科学的发展、医疗水准的提高,都是利大于弊的。

机器之心:深度学习先驱吴恩达(Andrew Ng)认为迁移学习(Transfer learning)是人工智能未来最有希望的发展方向,而你的研究正是应用了迁移学习。相比其他机器学习方法,它具备哪些优秀之处?

张康:「迁移学习」被认为是一种高效的学习技术,尤其是面临相对有限的训练数据时。相较于其他大多数学习模型的「从零开始」,「迁移学习」利用卷积神经网络(Convolutional Neural Network,CNN)学习已有的已经标记好的预训练网络系统,以医学图像学习为例,该系统会识别预系统中图像的特点,我们再继续导入含有第一层图像相似参数和结构的网络系统,最终构建出终极层级。在我们的系统中,第一层网络就是视网膜 OCT 图像,第二级网络系统使用第一级的图像寻找相应的特点,通过前向传播固定低层图像中的权重,找到已经学习的可辨别的结构,再提取更高层的权重,在其中进行反复的自我调整和反馈、传递,达到学习区分特定类型的图像的目的。我们首次使用如此庞大的标注好的高质量视网膜 OCT 数据进行迁移学习,进行常见视网膜致盲性疾病的检测及推荐治疗手段,得到与人类医生相似甚至更高的准确性。此人工智能系统还可以「举一反三」,将迁移学习用于小儿肺炎诊断。

迁移学习是深度学习的一个自然发展方向,迁移学习能让深度学习变得更加可靠,还能帮我们理解深度学习的模型。比如,我们能够知晓哪部分特征容易迁移,这些特征所对应的是某个领域比较高层、抽象的一些结构型概念。把它们的细节区分开,就能让我们对这个领域的知识表达形成一个更深的理解。这样一来,机器就可以像生物的神经系统一样终身学习,不断地对过去的知识进行总结、归纳,让一个系统越学越快,而且在学习过程中还能发现如何学习。

迁移学习在深度学习上面有极为广阔的应用前景,在图像数据资源有限的医疗领域,更高效、所需图像数量更少的迁移学习,可以说是未来 5 年内 AI 发展的热点以及深度学习成功应用的驱动力。

卷积神经网络示意图,该图描述了新研究在 ImageNet 数据集 1000 个类别上训练的卷积神经网络在面对全新 OCT 图像数据集时可以显著提高准确率、降低训练时间。区域链接的(卷积)层会被冻结并迁移到新网络中,而最后,在迁移层之上,全连接层会被重新创建,并被随机初始化重新训练。(Credit:论文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》)

机器之心:这项工作中,你们与广州市妇女儿童医疗中心、四川大学华西医院、同仁眼科中心、上海市第一人民医院、大连北海医院等机构进行了合作,这些合作是如何开展的?

张康:感谢这些医院为我们提供了宝贵的大量原始医疗图像数据,且由不同专科的医生对图像予以分类、标注,帮助训练 AI 系统获得更精准更稳定的诊断结果。

机器之心:我们都非常期待人工智能可以帮助我们治疗疾病,发表在《Cell》上的研究距离实际应用还有多远?

张康:我们目前已开始在美国和拉丁美洲诊所进行小规模临床试用,进一步优化系统,在未来很快时间里应该可以大规模使用。我们会同时增加准确标注的图片数量和疾病种类,如初步筛查常见疾病、就医转诊指引等功能将可能首先应用于临床,下一步则为指导治疗方案确定、随访等,最终的目标是应用到包括初级保健、社区医疗、家庭医生、急诊室,形成大范围的自动化分诊系统等。

机器之心:计算机科学领域的研究者们(如斯坦福大学吴恩达 Andrew Ng 团队、李飞飞团队)也在致力于将计算机视觉方法应用于医疗领域。作为另一个行业的学者,你是如何看待他们的研究的?

张康:他们的成果为我们的研究提供了理论基础,我们学习了他们的技术,并在他们开发的「迁移学习」模型为基础作出改进,组织一个庞大而有序的视网膜专家小组,加入总共约 11 万张准确标注的视网膜 OCT 图像以及 5000 张胸部 X 线图像,构建出我们的 AI 疾病图像诊断系统。可以说,我们取得今日的突破和他们的贡献是分不开的,感谢像他们一样的计算机学者的付出,才让我们得以更好的结合计算机视觉科学与医疗科学,从而更好的服务于全人类。

机器之心:这种以医生为主导的 AI+医疗研究与其他以人工智能学者为主导的 AI+医疗研究有什么不同?

张康:过去的人工智能研究多以人工智能学者为主导,也许能更快的设计出更为精妙的算法,但由于其对临床医生的需求的不了解,使其真正应有于临床受到限制。现在,我们的团队由专业的医生带领人工智能学者构成,我们更能了解医生对形成诊断、确定治疗方案的需求,在我们的研究中,我们医生知道什么样的医学图像诊断价值更高,从而亲自设定规范的图片纳入标准,对图像进行标注,从而使机器从源头开始就更能获得我们想要的结果。

比如,有一些图像特征较为模糊的图像,如老年黄斑变性,某些较大的玻璃膜疣和脉络膜新生血管非常相似,我们就会偏向于采取更为严重的疾病诊断,因为我们研究的最终目的是帮助病人更可能的推荐给相应的专科医生,从而更快的获得治疗。另外,我们还可以通过我们的想法设定更为贴合实际的过滤器,并按照我们临床医生的需求不断调整;通过「遮挡实验」能够反映机器得出判断的依据。并且,我们的研究还能指导治疗方案的确定。因此我们的研究可能更能达到临床医生想要的效果,并且为临床医生所信任,也许能更快更直接的应用于临床。

机器之心:如何减少医学领域与计算机科学领域之间的隔阂,让新技术能够更好地造福人类?

张康:就我们团队来说,我们以临床经验丰富的医生、教授为主导,辅以有生物医学知识的科学计算经验丰富的计算机专家,还有高通和 Intel 等计算机软硬件领域的行家作为我们的技术指导,在算法的完善和使用上起到很大的帮助。同时,我们定期会一起进行沟通交流,让程序员们更好的了解我们医生的需求。只有医学领域和计算机领域的人才之间互相帮助、互相指导、通力协作,才能使新技术真正的获得应用,更好的造福人类。

机器之心:目前的机器学习方法需要大量医疗图像用于模型的训练,如何避免泄露隐私的问题?

张康:目前的机器学习方法的确需要大量医疗图像用于模型的训练,虽然我们使用的「迁移学习」较传统的深度学习所需的数据量少,增加相应的优质数据确能更加高效的大幅度提升训练效果。通过大量的数据输入,AI 系统可以在不断的学习过程中进行调整,不断减少误差,从而获得更稳定更准确的结果输出。

我们可以保证的是,我们用来训练机器的医疗图像都是仅有疾病表现而不包含病人基本信息的(如姓名、年龄、性别等)图像,因此不存在隐私泄漏的问题。

机器之心:如何看待中国和美国在人工智能医疗领域发展上的差距或者不同?

张康:个人认为,中国在人工智能医疗领域其整体发展水平与发达国家相比仍存在一定差距,在前沿基础理论的学习、人才培训交流、关键性技术的强化,以及对数据收集的优化、质量的提升、档案的系统性、增加数据调用的方便性等方面都有待完善。

目前,国内大多数医疗人工智能仍处于实验研发阶段,其整体发展水平与发达国家相比仍存在一定差距,在前沿基础理论、关键性技术、产业基础平台、人才队伍和监管体系等方面都有待完善。要相信,现阶段人工智能的作用是辅助医生而非取代医生,从而帮助患者更容易获得治疗,随着今后医疗资源的自由流动,医院可能更需要辅助诊断系统,未来医疗人工智能是否能获得更有效的应用、开发出成熟的产品,还有赖于国家对 AI 产品使用的支持、临床医生的信赖与合作。通过加强国际交流合作、人才培训、构建研发中心,发挥我国疾病库资源庞大的优势,加强数据共享、优化数据,保持人才的长期交流与协作,才能获得更好的发展。

机器之心:在这项成功的研究之后,能否透露一下你下一步的 AI+医疗研究方向?

张康:通过算法系统的调整,继续改进学习、导出结果等过程;我们的 AI 系统对于全身各系统可以进行图像检测的疾病都具有适用性,因此我们将进一步增加准确标注的图片数量,加入不同的图像类型,增加可诊断的眼部疾病,另外,加入包括肿瘤,儿童和妇产科,病理等其他系统的疾病图片,增加其可诊断的疾病种类。同时,在疾病预测、指导治疗等等方面增加系统的适用性。

]]> 原文: https://ift.tt/2GrprVk
RSS Feed

机器知心

IFTTT

善于单挑却难以协作,构建多智能体AI系统为何如此之难?

本文将通过地图寻宝问题为例,向你简要介绍多智能体系统实施时的困难程度及其原因。

「研究人工智能三十五年来的主要经验是:困难的问题是易解的,简单的问题是难解的。」Pinker (1994),《The Language Instinct》

我之前觉得编写一个软件智能体来收集图上的宝藏是件简单的小事。但是我完全错了。编写出不愚蠢行动的智能体实际上非常困难。

明确定义的多智能体设置

「智能体是指任何通过传感器感知环境、通过效应器作用于环境的事物。」Stuart Russell&Peter Norvig,《Artificial Intelligence: A Modern Approach》

使用 GraphStream 库模拟多智能体系统收集宝藏。

这是一个简单的多智能体问题。让 n 个智能体在完全连接的图上移动并收集宝藏。智能体的行动、感知和沟通受到限制,它们只能观察并移动到与它们直接相连的节点,只能与足够接近的智能体进行通信。

有三种智能体:探险者、收集者和无限背包(Infinite-backpack)智能体。探险者注定要探索地图,因为它们不允许收集宝藏。收集者才可以收集,但它们不能携带太多,并且必须将它们收集的宝藏分发给无限背包智能体。

智能体的感知有限,但可以记住过去的观察结果。每个智能体都有自己的世界表征形式、自己的图(真实图的子图)。智能体的子图是它们访问过的所有节点的记忆,以及它们曾经见过或走过的边。它们必须将此图传达给其他智能体,以便它们都可以共享来自所有子图的修复。

JADE(Java Agent DEvelopement Framework)将用于实现所谓的「行为」(教程地址:http://jade.tilab.com/doc/tutorials/JADEProgramming-Tutorial-for-beginners.pdf、https://gitlab.com/herpsonc/startJade)。在这个多智能体系统框架中,行为是智能体将要执行的一组指令。在每一轮中,每个智能体都按顺序执行每个行为。

你的目标:实现智能体的行为,使之在一定时间内收集尽可能多的宝藏。

看起来很简单,是吧?

(注意:该项目是《多智能体系统简介》(ANDROIDE 的一门课程)的一部分。灵感来自于生存恐怖游戏 Hunt The Wumpus,在该项目的完整版本中,智能体需要处理四处游荡的、可怕的 Wumpus)。

重要的行为

想象两个智能体在长廊中朝相反方向移动。图的每个节点上只能有一个智能体,所以它们必须协调行为以避免阻碍别人。考虑到这种情况,我们必须实施一个特定的协议。

模拟中智能体的冲突:MyExplorerAgent2 挡住了其他两个智能体。

协调

智能体的感知有限,并且有不同的能力。因此,合作是必不可少的。发生冲突时,必须应用解除该情况的协议。它们必须分享自己的子图,看看谁更接近高度连接的节点,并就谁来移动达成一致。

探险者智能体必须同意谁来探索未知图形的哪个部分,以优化它们的移动并防止冲突。

信息交换

在多智能体设置中交换信息以便让每个智能体都能获取全局知识的过程被称为 gossip problem。

例如,假设集合 {1,2, … ,n} 中的每个智能体都知道一部分信息,称为一个秘密。然后,一个非常简单的协议是让智能体 1 呼叫 2、3、......、n,并了解它们的秘密。当 1 知道所有的秘密时,它会呼叫给 2、......、n,告诉它们这些秘密,这样每个智能体都知道所有的秘密了。总共有 n-1+n-1=2n-2 次呼叫。实际上,最佳解决方案需要 2n-4 次呼叫,这与我们的简单算法非常接近。

然而,在我们的问题中,直到所有节点都被探索时才能知晓完整信息,这使得算法稍微复杂一些,因为总的知识是动态的(智能体探索的图越多,它们的知识总量越多)。

这时就出现了优化妥协(optimization compromise)。为了让全部智能体知道所有秘密,这 n 个智能体之间必须交换消息的最佳数量是多少?更多信息意味着更好的全局知识和更好的协调。然而,由于有数千个智能体和数百万个节点,每毫秒发送数千条消息的成本远远无法忽略,成为一个计算负担。

异步通信

智能体之间的通信是异步的。由于智能体的执行是分布式的,所以没有全局时钟来同步智能体的动作。此外,在交换信息时,每个智能体都有一个邮箱,其中包含来自其他智能体的邮件,所以通信可能会延迟。在延迟期间,一个智能体可能会移动很远,并且永远不会回复原始信息。

联盟形成

联盟形成示例(图源:https://www.slideshare.net/SurSamtani/coalition-formation-and-price-of-anarchy-in-cournot-oligopolies)

某些目标不能单独实现(比如抬起重物)。因此,智能体可能会同意组成一组智能体,称为联盟(coalition),来实现共同目标。

有了具备三种不同必要技能(探索、收集和积累)的智能体,一个至少包括三个智能体的联盟才会形成。因此,必须实施创建和更新联盟的协议。可以使用 Shapley 值(由智能体联盟创造的剩余额)来确定哪些联盟是最有价值的。

即使是在简单的问题设置中,有几个障碍出现得非常快,算法的复杂性似乎是无法克服的。当尝试构建行为类似人类的 AI 算法时,这是一个反复出现的现象。

让 AI 执行简单的行为是困难的

「要让计算机如成人般地做智力测试或下棋是相对容易的,但是要让它们有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。」Moravec(1988),《Mind Children》

如果我们用人类替代智能体,我相信他们很快就会明白如何在这个游戏中取胜,他们会传达他们在图中所看到的信息,并形成联盟来收集最多的宝藏。然而,对智能体实施严格的行为准则却是非常困难的。

莫拉维克悖论:

对人类来说容易的事对机器来说却难以置信地困难。

说到下象棋,AI 表现出了超人类的水平。但是对于基本的人类行为,例如行走或协调行动来探索地图,人工智能算法却出奇地困难。

国际象棋大师加里·卡斯帕罗夫曾在《Deep Thinking》中写道:任何足够先进的算法都不难在同时进行的比赛中击败 20 名顶级棋手。但是没有 AI(机器人)可以在拥挤的酒吧中四处走动和自行移动棋子。

来源:https://www.youtube.com/watch?v=adFd0f7K46w

机器学习在非常特定的情况下工作

但是你可能会问为什么我们不使用最新的机器学习(ML)算法来解决我们的问题呢?......ML-only 算法只能被用于特定的任务。

是的,强化学习(RL)算法非常流行,可以解决超难的问题,例如在 Atari 游戏或围棋中展现出超人类的水平。但是这些游戏都是具备小数据输入的全可视性游戏,这与我们的寻宝问题并不相同,因为地图在开始时并不完全可见。

(图注)来源:http://deep%20reinforcement%20learning%20doesn%27t%20work%20yet/(Feb. 2018)

但是,OpenAI 不是在多智能体系统上,用机器学习算法在 Dota 2 的 5 vs 5 中战胜了人类吗?你可能会问。

是的,当在 Dota 2 1 vs 1 中战胜世界冠军时,OpenAI 展现了令人印象深刻的结果。但是这主要是因为它们强大的计算能力,并不是人工智能的突破。

它们的目标是利用一个包含 580 万场比赛的数据集在 5 vs 5 比赛中获胜。所以,它们似乎正在使用完全机器学习方法(从人类游戏中学习)研究多智能体问题,并且似乎缺少多智能体系统的自上而下方法。

智能体不会推断和概括。纯机器学习可用于单个智能体或完全可观察的系统,但是多智能体系统不是一个完全已知的世界,必须采用一个更普遍的方法。

我们不知道如何实现可扩展行为

在只有两个智能体在走廊上朝相反方向走的时候,我们遇到了一个问题。实施协议来处理这一特定问题是可能的

但是如果是 100 个智能体在具备 400 个节点的地图上呢?

少数智能体的硬编码功能与多智能体系统的可扩展和可泛化实现之间存在差距。

需要做什么

经过研究,必须开发特定的多智能体协议来解决这类问题。没有先验知识的学习不会教授智能体如何沟通,因为搜索空间太大。纯数据驱动的方法不会带来任何结果。

结论

实现一个解决寻宝问题的算法比看起来要困难得多。构思能够解决简单问题的多智能体系统绝非易事。机器学习算法在过去十年中取得了巨大成果,但仅凭机器学习无法解决所有的人工智能问题。

]]> 原文: https://ift.tt/2IiE91f
RSS Feed

机器知心

IFTTT

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...