2018年7月2日星期一

不,你根本不需要ML/AI,有SQL就够了

原作:Celestine Omin铜灵 编译整理量子位 出品 | 公众号 QbitAI

昨天,软件工程师Celestine Omin发表了一篇观点犀利的文章。Omin现就职于为非洲人提供在线编程培训和工作的Andela公司,此前曾在尼日利亚最大的电商Konga工作。

Omin认为,当下很多公司费尽心思用AI/ML方法处理的任务,其实用经典简便的SQL就能解决。

这个观点引发程序员热议,大家兵分两派、自动站队,量子位将文中精彩观点编译加工,不知道你怎么看?

多此一举

一些有趣的技术和概念正在涌现,比如机器学习、人工智能、虚拟现实、增强现实、区块链等——而一些现有的技术则退居其次。

让人好奇的新技术开始变得炙手可热。

我听闻,现在如果你想尽快融到资,就必须与区块链沾点关系,即使与公司主业务不太相关,也得强蹭一下——

就像AI/ML的诞生对传统计算机方法的冲击一样。在AI/ML诞生前的几十年里,人们用简单传统的SQL(结构化查询语言)分析商业和财务。

我认为,现在很多公司大张旗鼓用花哨的AI技术解决的任务,其实用SQL就能完全办到。

这项已有40多年历史的技术在今天仍然具有重要意义,就像它在1974年首次出现时一样。

不信?我证明给你看。

给你实锤

SQL的功效可能超乎你想象。

当我在尼日利亚电商Konga工作时,有一次我们需要对很长时间没有登录的用户进行回访。SQL登场了。

我编写了一个SQL查询收集所有三个月没有光临的顾客,这个步骤相当简单。收集完资料后,我们会发送一张带优惠券的邮件。这个方法比从谷歌和Facebook上用AI和ML算法的效果厉害得多。

我们还将SQL用于AI/ML经常现身的个性化推荐任务中。

我编写了SQL查询用户购物车里的商品并提取单个条目,根据购物车里的商品类型,可以大致判断用户需要什么、我们可以推送什么。大多数营销邮件的打开率在7-10%之间。当我们用SQL做得好时,打开率接近25-30%,是行业平均打开率的三倍。

看吧,这就是SQL的魅力,简单高效,丝毫不亚于ML。

不仅如此,对于那些因为各种原因无法完成订单的客户,我们也没有让他们放弃。只要他们把商品加到购物车里,就表明他们有购买的意图。为了吸引他们快点"拔草",我编写了一个漂亮的SQL脚本,并将其与CRON命令结合给客户发邮件。我们通过邮件追踪用户行为,发现这个方法特别管用。

这个SQL非常简单,是从状态不为空且最后更新周期≥48小时的购物车中选择的。我们把CRON设为每天凌晨2点,顾客醒来后会收到邮件,提醒购物车中还有心水的商品。这里也没有什么特别的技术,只有SQL、Bash和CRON。

还有太多太多类似的例子,都在证明SQL是一种简单且高效的方法,可以代替很多人口中的"性感且复杂"的AI/ML。

有没有发现,当你在苦苦钻研如何用机器学习开辟一条技术新路的时候,好用的SQL就在眼前。众里寻AI千百度,而SQL就在灯火阑珊处。

不知道作为AI/ML研习者的你,怎么看?

最后,附文章原文地址:

https://cyberomin.github.io/startup/2018/07/01/sql-ml-ai.html

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2Ks3ICH
RSS Feed

RSS5

IFTTT

权威举办 | “人工智能与智能控制”学科前沿讲习班

随着人工智能和机器人技术的发展,对控制理论研究的深度和广度得到开拓,形成了智能控制理论。当下,智能控制的应用研究十分活跃,各种智能决策系统、专家系统、学习系统和故障诊断系统等已被应用于各类工业过程控制系统、智能机器人系统和智能化生产系统。智能控制技术呈现出的强大生命力,已引起世界各国专家学者的关注。

中国自动化学会将以"人工智能与智能控制"为主题,于2018年7月28日-7月29日在湖北武汉·华中科技大学举办第6期『智能自动化学科前沿讲习班』。此次讲习班由华中科技大学自动化学院院长、图像信息处理与智能控制教育部重点实验室主任曾志刚教授和清华大学胡晓林副教授共同担任学术主任,邀请业界多位知名专家作主题报告,分享交流智能控制的学术前沿、产业发展及应用实现。

讲习班内容安排

题目:智能控制算法

讲者:陈俊龙,澳门大学讲座教授,国家千人学者,中国自动化学会副理事长,IEEE Fellow,AAAS Fellow,IAPR Fellow,CAA Fellow

摘要:智能控制是来解决传统控制方法难以解决的非线性、高度不确定性、信息不完全性、或者因人而产生复杂性等的具有复杂控制任务的问题。此次报告是讨论基于人工神经网络理论、模糊数学理论、计算智能理论、及模式识别理论等为基础而衍生出来的智能控制方法。课题包括:(1)神经网络控制;(2)模糊控制;(3)强化学习控制;(4)智能自适应控制;(5)基于遗传算法的智能控制;(6)混合智能的控制。

报告题目:时间非一致性与随机最优控制

讲者张纪峰,中科院系统科学研究所所长,中国自动化学会副理事长,国家杰青,IEEE Fellow,IFAC Fellow,CAA Fellow

摘要对经典的最优控制问题,相应于给定时间-状态初始对的最优控制,将沿着最优轨迹保持最优;即以最优轨迹上任何一点作为新的时间-状态初始对,原有最优控制在后续时间区间上的限制,将是相应于此新初始对的最优控制。这一性质称为最优控制的时间一致性,它可由Bellman最优性原理推得。最优控制的时间一致性虽然在经典最优控制理论中很少被提及,但事实上它是一个本质性的概念,现有的Bellman动态规划理论主要依赖于时间一致性这一性质。 然而,现实世界中存在大量动态优化问题,对它们而言,Bellman最优性原理不再成立,进而最优控制的时间一致性也将丢失,即所考虑问题是时间非一致的;如下几种情形经常被文献提及:(i) 指标泛函中的贴现函数是非指数的,(ii) 指标泛函中存在条件期望的非线性项,(iii) 指标泛函是初始状态显式依赖的。这些现象广泛存在于经济学和金融学领域,比如双曲贴现函数,准几何贴现函数,均值-方差效用函数等。 本报告将详细介绍时间非一致性,具体地,将揭示时间非一致性自Adam Smith以来的定性分析和概念萌芽,阐述其在金融学和经济学中的定量分析和成功运用,描述了系统控制领域的相关研究进展,强调了研究随机最优控制领域内时间非一致的必要性。

报告题目:类脑计算及类脑计算系统

讲者:施路平,清华大学教授,博士生导师,清华大学类脑计算研究中心主任,国家千人计划特聘教授

摘要:类脑计算系统是借鉴人脑信息处理方式,打破"冯•诺依曼"架构束缚,适于实时处理非结构化信息、具有学习能力的超低功耗新型计算系统。当前欧盟、美国等均斥巨资长期支持此研究,但是这项研究目前均处于起步阶段,尚未形成公认技术方案。此报告将从为什么(why)?做什么(what)?和怎样做(how)?三方面来分析类脑计算系统研究,分析发展类脑计算的挑战和前景。

报告题目:基于视触觉融合的目标识别与灵巧操作

讲者孙富春,清华大学教授,博士生导师,计算机科学与技术系学术委员会主任,国家杰青

摘要为实现机器人柔和灵巧的操作能力,下一代机器人需装备多模态的分布式感知与融合模块,有望突破像人一样的跨模态信息感知、表征/融合和动作行为。本报告介绍了清华大学课题组研制的高分辨率四模态传感装置和装备有四模态人工皮肤/类肌肉驱动的五指灵巧手,该灵巧手的分布式传感装置包含了微视觉、压力觉/滑觉和温度觉传感器。报告给出了研究团队在跨模态的视触觉信息的处理方面取得理论成果,包括基于视触觉信息的目标识别以及感知-动作映射问题的深度学习和经验学习方法。最后是实验结果分析和未来的研究展望。

报告题目:基于FPGA的深度学习处理器

讲者汪玉,清华大学长聘副教授,博士生导师,国家优青,深鉴科技联合创始人

摘要深度学习的应用日益广泛。相比于传统的CPU/GPU平台,针对定制计算结构能够提供更高的计算能效。但是,基于FPGA的深度学习加速器面临开发周期长,性能受限等问题。本报告将通过总结已有工作,结合实际设计经验,总结针对深度学习加速器的设计思路,之后介绍基于FPGA的高能效、快速部署的深度学习处理器结构和部署流程[FPGA 2016+2017]。其中压缩和量化技术可以去除算法中的冗余操作,减少系统计算和存储的需求,同时量化还能够提升FPGA系统的峰值计算能力。由于CNN和DNN/RNN在计算和存储模式的本质差异,针对CNN、DNN/RNN分别设计了两种体系结构与相应的指令、编译系统。基于赛林思的平台,CNN和LSTM的平台均取得了比嵌入式和桌面GPU更好的能量效率(>60GOPS/W)。

报告题目AI时代视觉大数据的智能分析

讲者:王亮,中科院自动化研究所研究员,博士生导师,模式识别国家重点实验室副主任,国家杰青,IAPR Fellow

摘要本报告首先简介人工智能的概念和现状,然后介绍其重要的一个分支领域-计算机视觉。视觉大数据分析是模式识别的前沿方向。近年来,深度学习已经在语音、视觉、自然语言处理等领域取得了很大成功,接下来重点回顾深度学习历史及其在视觉大数据分析中的应用进展。针对深度神经网络在结构、功能、泛化性等存在的问题,进一步探索模拟认知过程中的注意、记忆等机制,研究深度认知神经网络理论和方法。最后,展望了几个未来可能的研究方向。

报告题目:生物启发的视觉计算

讲者:张兆翔,中科院自动化研究所研究员,博士生导师,类脑智能科研中心研究员

摘要深度学习为代表的模式识别方法在多种视觉应用中取得了显著成功,甚至媲美人的性能,但是与生物模式识别系统相比,现有的深度学习方法在自适应性、可泛化性和多任务协作方面依旧存在明显缺陷。从脑的神经信息处理机制、认知方法和行为特性上寻求启发有望指导更好的神经网络建模,实现更为鲁棒的类人学习,具有重要研究意义与应用前景。本报告将对近年来生物启发的视觉计算工作的回顾基础上,对我们近期开展的脑启发的神经网络建模与学习方法开展研究,具体报告内容包括神经网络的结构建模、面向多任务的神经网络架构学习、视听模态分析与整合、知识蒸馏和多智能体协同等。

报告题目:基于新型电子突触器件的类脑计算研究

讲者吴华强,清华大学教授,微纳电子系副系主任,北京市未来芯片技术高精尖创新中心副主任

摘要人工智能的研究和应用已经取得了突飞猛进的发展,但是运行人工智能深度神经网络算法的计算平台主要是超级计算机群(成百上千个CPU和GPU),不但需要巨大的硬件投入,而且占用的空间和消耗的能源也非常可观。受限于存储计算分离对芯片性能的限制,同时CMOS工艺微缩速度放缓,以及人工智能应用对计算存储需求的不断提升,当前的技术将面临诸多新的挑战。在这一背景下,新器件的出现变得至关重要,通过引入新原理的半导体器件,不但可以拓展芯片的功能,甚至可以颠覆传统电路理论,突破当前芯片面临的能效、速度瓶颈,大幅提升芯片性能。基于过渡族金属氧化的忆阻器件显示出了优越的存算一体的特性,能够规避存储和计算之间数据搬运的功耗并且能够实现大规模集成,进而实现高性能计算。 展望未来,智能社会即将来临!面向未来的智能芯片,最底层的器件需要具备哪些特性呢?

报告题目利用机器人的自然动力学来实现高能效的移动

讲者赵明国,清华大学副教授,机器人控制实验室主任

摘要服务机器人的应用中常常面临一个重要的问题:使用轮子还是腿来完成运动。两个方法都各有优缺点。在铺设好的道路环境中,轮式机器人因其简单高效而被大量采用,而在复杂多变的环境中,腿式机器人常常是最佳选择。无论采用哪种运动方式,能量效率都是我们最关心的问题之一。因此,在这两种机器人的应用中都有一个共同的主题:利用机器人的自然动力学来实现高能效的移动。 本报告将介绍清华大学机器人控制实验室在这方面做的一些研究工作,即先利用被动步行原理实现高能效的双足运动,然后通过反馈控制进一步提高机器人的稳定性,报告的另外一部分也将向您展示如何通过车把转向控制实现无人驾驶自行车的高能量效率。在这些例子中,我们采用了一种非常简单但非常规的控制方法,它们的共同特点是寻找并利用系统的自然动力学。在两足机器人的研究中,我们考虑的能量补充机制和稳定控制方法,并构造一个参数激励系统,最后实现了一种方法来改善反馈控制系统的稳定性。这种方法受混沌控制的启发,但也不局限与混沌系统,我们希望这种方法可以作为实现可穿戴的软体外骨骼的一种理论基础。在自主驾驶自行车的研究中,我们使用车吧转向过程中的离心力和重力的平衡来实现自行车的平衡控制,并实现了一个一个稳定、灵活、高效的无人驾驶自行车系统,这种技术可以应用于个人智能设备和自动驾驶系统。

报告题目:神经网络的攻击与防御

讲者胡晓林,清华大学副教授

摘要神经网络在各种任务上取得了巨大的成功,但是人们发现它很脆弱:对输入数据做一点微小的扰动,就会导致输出结果完全不同。这种特殊扰动后的输入数据称为对抗样本,而这种操作被称为对神经网络的攻击。有攻击就应该有防御。防御的意思是构造方法使得神经网络不被对抗样本欺骗。我将介绍这个领域的历史和最新进展,并对未来进行展望。

讲习班致辞

曾志刚,华中科技大学教授、博士生导师,自动化学院院长,国家杰出青年科学基金获得者,教育部长江学者特聘教授,万人计划科技创新领军人才,图像信息处理与智能控制教育部重点实验室主任。先后担任IEEE Transactions on Neural Networks;IEEE Transactions on Cybernetics; IEEE Transactions on Fuzzy Systems;Cognitive Computation;Neural Networks;Applied Soft Computing;自动化学报和控制工程的编委。担任IEEE Transactions on Neural Networks and Learning Systems;Neural Computing & Applications;Neurocomputing;International Journal of Fuzzy Systems;Neural Processing Letters 等5个SCI源国际学术期刊的客座编委。担任过三十多个国际学术会议的大会主席,程序委员会主席,出版主席等。

报名及注册费
1、本期讲习班限报 200 人,根据缴费先后顺序录取,报满为止;

2、2018年07月26日(含)前注册并缴费:自动化学会会员2000 元/人,非会员报名同时入会2500元/人;现场缴费:会员2500元/人,非会员3000元/人(包含提前报名现场缴费、现场报名现场缴费);在校生参会可享受学生优惠价格1200元/人

3、同一单位3人及以上团体报名,按会员标准缴费;

4、即日起至 2018年7月26日,点击「报名地址」进行注册报名。

联系方式

电话:010-62522472手机:18811748370

邮箱:caa_assia@163.com微信:AI_college

]]> 原文: https://ift.tt/2IJ5tpr
RSS Feed

机器知心

IFTTT

腾讯医疗AI实验室:3篇论文被国际顶尖会议收录

近日,腾讯在医疗 AI 领域的学术研究获得实质性进展,旗下医疗 AI 实验室共有 3 篇论文分别被 KDD 2018、SIGIR2018 、COLING 2018 三个国际顶尖学术会议收录,论文的主要研究方向为医疗知识图谱中实体关系的发现和应用。

在医疗领域,专业知识和病人信息均存储在复杂多样的文本中,如医疗文献、临床病例等。文本数据中的多重表达形式和噪声给基于文本数据的AI医疗服务带来挑战和困难。知识图谱能够以结构化的形式存储医学中实体以及实体间的关系,能将信息表达成更容易被计算机处理的形式。腾讯医疗 AI 实验室利用知识图谱及其相关技术,如自然语言处理、知识抽取、信息检索、知识表示与推理等,从医疗文献、医学指南和临床病历中挖掘隐含的医学知识,将大数据转化为知识图谱,使得知识查询和更重要的形式化推理变得可行,有医学依据,辅助临床决策,赋能基于人工智能的医疗产品。

此次腾讯医疗 AI 实验室研究成果入选的三大学术会议分别是:SIGKDD,数据挖掘研究领域的顶级国际会议;SIGIR, 信息检索领域的顶级国际会议;COLING,自然语言处理领域的重要国际会议。

腾讯医疗 AI 实验室负责人范伟介绍,"医疗知识图谱是推动人工智能应用于医疗领域的核心驱动力之一,如何更好地利用自然语言处理、知识抽取等相关技术,从形式多样、信息杂乱的各种医疗数据中,抽取结构化的医疗知识,结构化存储实体的详细属性以及实体之间的关系,我们在不断优化提出问题并尝试给出新的解决思路和研究方法。"

以下为收录的三篇论文概要

1. 入选 KDD 2018:基于生成模型的医疗实体关系抽取(Onthe Generative Discovery of Structured Medical Knowledge

研究成果:创造性地从生成模型的角度研究医疗实体关系,减少了对语料数据和专家标注的需求

在医疗知识图谱中,实体三元组以结构化的形式描述了医学领域中实体间的各种关系。为了获得医疗领域实体三元组,现有方法大多需要搜集大量语料,或过多依赖于专家的标注。如图 1 所示,本文提出的算法 CRVAE (Conditional Relationship Variational Autoencoder利用已标注的实体三元组在自然语言表述上的共性和差异,对多种医疗实体关系类内的数据分布进行联合编码,进而从生成模型的角度去发现未被标注的关系实体三元组。该方法减轻了传统判别模型对于外部资源的过度依赖,并且不依赖于医疗实体关系类间的差异进行建模。

实验表明,算法 CRVAE 不仅能够在外部资源有限的条件下,以 92.91% 的支持度生成属于某个特定医疗关系的实体三元组,其生成的结果拥有 77.17% 的准确率且生成结果中有 61.93% 的样本未曾出现在训练数据中。

在未来,我们将尝试利用生成模型进行不同粒度、不同医疗子领域的无监督知识发现。同时,我们也期待将生成模型作为一种有效的数据增强方式,赋予医疗领域更多人工智能的应用。

▲ 图1. CRVAE模型架构图示

2. 入选 SIGIR 2018:具有知识感知能力的答案排序模型(Knowledge-aware AttentiveNeural Network for Ranking Question Answer Pairs)

研究成果:证明了利用知识图谱可显著提高问答系统的性能

在基于人工智能的医疗产品中,对话系统作为最终呈现形式有着广泛的应用。答案排序是对话系统中的重要部分,最近受到越来越多的关注。然而,已有相关工作在除关注上下文之外,对起着重要作用的背景知识却关注很少。对此,本文提出了 KABLSTM(Knowledge-aware AttentiveBidirectional Long Short-Term Memory),这是一种具有知识感知能力的双向长短记忆模型,它利用知识图谱引入的背景知识来丰富问答的表征学习

如图 2 所示,本文开发了一个知识交互式学习架构,其核心是一个上下文引导的注意力神经网络,可将知识图谱中的背景知识嵌入整合到句子表示中;最后结合知识型注意力机制模块,对问题和答案中的各个部分进行有效的相互关联。在 WikiQA 和 TREC QA 数据集上的实验结果证明了该方法具有一定有效性。在此工作中,利用知识图谱来辅助问题和答案的表示学习。在后续的工作中,我们将研究利用知识图谱进行直接推理,来帮助医疗问答系统

▲ 图2. KABLSTM模型架构图示

3. 入选 COLING 2018:基于远程监督具有协同消噪能力的实体关系抽取模型(CooperativeDenoising for Distantly Supervised Relation Extraction

研究成果:创造性地提出能够减少数据噪声对实体关系抽取性能影响的方法

知识图谱的构建过程中,远程监督(Distant Supervision)能够减少对标注数据的需求,因此适合从非结构化文本中进行关系抽取。然而,该方法有可能受到训练数据噪音过大的影响,性能受到限制。为解决这个问题,本文提出了一种协同消噪的模型 CORD (COopeRative Denoising framework),该方法由两个神经网络和一个协同模块组成,如图 3 所示,两个神经网络分别在文本语料库和知识图谱领域进行学习,再通过一个自适应的双向蒸馏模块(adaptive bi-directional knowledge distillation)完成它们间的相互学习,达到消除噪声的目的。实验表明,该方法在噪声较大的数据上有较明显的效果提升。

在医疗领域,医疗文本、医疗影像等不同模态、不同来源的数据包含着互补的丰富信息。在后续研究工作中,我们将利用多模态、多源数据进行更加可靠的去噪和医疗知识提取。

▲ 图3. CORD模型架构图示

医疗知识图谱作为人工智能应用于医疗领域的前沿课题,对推动"AI+医疗"的发展有着重要意义,将为医疗行业的发展带来新的契机。当前,腾讯在"AI+医疗"领域的学术研究在稳步前进并获得国际学术界的认可,有利于更好的推动"AI+医疗"产学研结合,加速医疗 AI 应用落地,为医疗赋予 AI 动能。

腾讯医疗 AI 实验室是腾讯医疗专为医疗领域打造的人工智能实验室,采用美国-中国双中心模式,目前在硅谷、北京、深圳设立了三个分支。主要研究方向包括:通过研发临床辅助决策支持系统向各级医务工作者提供服务,以提高医生用户在医学科研、患者诊疗、疾病防控等方面的工作效率;通过研发基于无可穿戴传感器纯视频分析技术的运动障碍性疾病评测系统,可用于帕金森病的日常评测、脑瘫患者术前步态评测等方面,实现自助评测,以提高医生工作效率,减低患者评测成本;通过研发医学知识引擎,构建权威全面的医学知识库,并提供对外知识库查询等平台化服务,降低医疗人工智能辅助决策类产品的技术门槛,通过知识共享的方式与合作伙伴共同打造医疗AI的技术和服务生态圈。实验室的目标是通过世界领先的 AI 技术,构建良好的技术生态,服务于医患双方,提高工作效率、优化就医体验,缓解医疗资源分布不均等问题,同时着重落实分级诊疗国策。

]]> 原文: https://ift.tt/2IJCJwE
RSS Feed

机器知心

IFTTT

COLING 2018 最佳论文解读:序列标注经典模型复现

本期推荐的论文笔记来自 PaperWeekly 社区用户 @handsome这篇论文是 COLING 2018 的 Most reproducible Paper。作者用 PyTorch 实现了一个统一的序列标注框架,重现了 CoNLL 2003 English NER、CoNLL 2000 Chunking 和 PTB POS tagging 这三个数据集上不同模型的的表现。值得一提的是,基于这个统一的框架,作者对一些已有工作的一些不一致的结论进行了反驳,提出了一些新的看法。对于实践者而言,这篇论文还是很有借鉴意义的。

关于作者:梁帅龙,新加坡科技设计大学博士生,研究方向为自然语言处理

■ 论文 | Design Challenges and Misconceptions in Neural Sequence Labeling

■ 链接 | https://ift.tt/2KqmTg7

■ 源码 | https://ift.tt/2MS4Pcf

引言

这篇论文是 COLING 2018 的 Best Paper 之一 "Most Reproducible Paper",论文基于的 PyTorch 代码框架 NCRF++ 也收录于 ACL 2018 的 Demo Paper。

作者用一个统一的序列标注框架实现了不同模型架构在 NER, Chunking, POS Tagging 数据集上的表现,并对已有工作的一些不一致的结论进行了检验,发现了新的结论。代码在 Github 上已经开源,使用文档也非常详尽,做序列标注的童鞋们又多了一把利器可以使用

任务

  • CoNLL 2003 英文的命名实体识别 (NER) 

  • CoNLL 2000 Chunking 

  • PTB POS Tagging

模型

字符序列表示

在词的表示方面,本文摒弃了基于传统的特征的方法,直接使用词本身的信息进行编码。除了词向量以外,为了更好地对那些不常见的词编码,文章使用 LSTM 或者 CNN 对构成词语的字符进行编码。

词序列表示

在整个句子级别,文章同样使用 LSTM / CNN 对构成句子的词语的表示进行上下文的编码。

预测层 

获取了每个词的上下文表示之后,在最后的预测层,文章使用了基于 Softmax 的和基于 CRF 的结构。和 Softmax 相比, CRF 往往更能有效地结合上下文的标签的依赖关系进行预测。

实验结果

NER的实验结果

Chunking的实验结果

POS Tagging的实验结果

从以上结果来看,字符序列的表示方面,CNN 和 LSTM 的结果差别不大;词序列的表示方面,LSTM 的结果比 CNN 的稍好一些,说明全局信息的有效性;预测层方面,POS Tagging 任务的 CRF 和 Softmax 表现相当,但是 NER、Chunking 的 CRF 的结果要比 Softmax 好一些。相比 POS 的tags,BIE 标签之间的依赖关系可能更容易被 CRF 所建模。

其他

这篇文章也检验了预训练的词向量的不同(GloVe/SENNA),标注体系的不同 (BIO/BIOES),运行环境的不同(CPU/GPU),以及优化器的不同 (SGD/Adagrad/Adadelta/RMSProp/Adam)对结果的影响。感兴趣的同学可以查看论文原文。 

最后

本文代码已开源,使用非常方便,也可以加自定义的 feature,几乎不用自己写代码就可以使用了。

]]> 原文: https://ift.tt/2NkAvHI
RSS Feed

机器知心

IFTTT

2018年7月1日星期日

无人车创业正驶入分水岭

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

无人车创业窗口早已经关闭。

相比去年你创业我也入局的大珠小珠落玉盘,2018这半年显得平平淡淡。

但并不代表自动驾驶热度衰减。相反,在看不见的比拼竞速中,资本、研发、产品和落地的争夺,让自动驾驶争夺愈加激烈了,而且在创业初期百花齐放之后,如今格局(暂时)有了雏形。

场内选手到底谁实力更强,可能一时很难直接说明,但资本市场的反馈,是一个明确的信号。

我们从估值和成长性来初步盘点一下。

第一梯队

处于第一梯队的主要有两家,最新估值都达到了10亿美元左右——左右幅度要按最最新一轮或官宣来确定。

上一轮,他们处于6-7亿美元阵列,但在半年之后,估值已被推进到了独角兽序列,而且下一轮可能还更恐怖。

一家并不陌生:Pony.ai.

没错,就是彭军和楼教主联手创业的小马智行。

Pony.ai其实在今年1月已经官宣了一轮1.12亿美元的A轮融资,在其后实现了国内首次的无人车试运营,还跟广汽达成战略合作,并招揽一帮大牛建起自动驾驶研究院,最近还以初创公司身份拿下北京路测牌照。

如此进展,自然也少不了资本追逐。量子位打探的消息是,Pony.ai完成了一轮估值10亿美元左右的新融资,但似乎脚步还未停下,所以官宣时间可能还要再等一等。

当然,Pony.ai在这半年里还有一些其他的进展,比如已经开始使用32线激光雷达完成64线甚至128线才能达到的效果。

但之前更被关注的八卦依然是楼教主。之前有传闻称,教主中道改意,出走小马加盟滴滴,出任滴滴外卖CTO,甚至有人亲眼目睹教主频繁进出滴滴。

然而真相是:滴滴外卖和Pony.ai同住一栋楼而已,但滴滴标识太显眼,最后竟在市场中谣传成了"教主加盟滴滴",由此可以得出的结论是:橙色logo的公司总要更显眼一些。

Pony.ai之外,另一家独角兽估值的无人车公司是:Momenta,中文也叫"初速度"。

这是一家之前被严重低估了的公司。

因为之前对Momenta的记述,多是环境感知、高精度地图之类的,而且切入的等级也不是完全无人驾驶,而是偏向L3为目标的高级辅助驾驶。

但本质上,Momenta想要打造的就是一个自动驾驶系统、无人车大脑,不同之处在于Momenta走了一条看起来更快能实现的L3之路——虽然听说L4以上的自动驾驶也在研发。

Momenta相对低调,但团队和实际进展却名声响于行业内。比如团队中,目前执掌研发的联合创始人,就是目标检测和图像识别领域先进框架Faster R-CNN和ResNet的作者任少卿。

而实际进展方面,Momenta先L3,跟车厂供应商合作,走特斯拉模式,然后再L4。Momenta还已得到奔驰母公司戴姆勒、蔚来汽车的产业资本的加持,依靠资本+资源,可能会更快走通技术方案的商业闭环。

这种"闭环"也在最近半年进一步得到资本认可,据称Momenta已经完成了多轮密集融资,推进速度和进展都惊人,而且阿里和腾讯都表示了意向,但最终结果如何,目前没有更进一步的消息。

总之,在过去半年竞速里,Pony.ai和Momenta已经闪出了一个身位。

第二梯队

接下来说说暂时位列第二梯队的无人车公司,这一梯队估值围绕6亿美元上下波动,相比起上一轮,整体也有2-3倍增长。

其中现在身处该梯队但又略显"委屈"的,莫过于景驰科技

景驰创业以来,势头汹涌,是国内声势最响的无人车公司。团队分工配置也相对健全,特别对于这个技术与落地并重,产品和资源同举的行业,前CEO王劲的作用不可谓不关键。

然而百度的精准一击,对景驰造成了不可承受的影响。当时景驰已经对外放话A轮1亿美元以上的融资,并且还要发起募集一支100亿元的生态基金,但最后百度法务和舆论共同出击,在投资层面也施加压力,景驰投资也遇到极大困难,内部分化,最后王劲出局。

其间可惜的不止是创始团队因不可抗力分割重组,核心人员变动,另外可惜的还有——据说当时王劲号召的100亿元生态基金接近完成,但最后结局如斯,王劲在景驰的故事戛然而止。

但或许能让景驰庆幸的是,危机响起和解决都在排位争夺期,还远没到决定输赢的关口。

在王劲之变后,景驰迅速度过了动荡期,也吸引了一批高级人才加盟,技术推进方面也算可圈可点,百度官司也已了断,公司重新进入了稳定发展阶段。

于是之前受影响的新一轮融资也被重启,据称进展还算不错——资本依然认可景驰的团队和技术。

另一家RoadStar.ai,近期刚宣布了一轮1.28亿美元的融资,投后估值5亿美元左右。

RoadStar.ai,之前我们介绍的并不多,这同样是百度车厂开出的无人车公司,其中在职百度最长的是首席科学家周光,他在百度美研负责感知相关工作,CEO佟显乔和CTO衡量在百度则只是短暂停留。

与其他百度系无人车公司差不多,RoadStar.ai也是主打L4以上自动驾驶。但RoadStar.ai显得"大器晚成"一些。

因为去年早些时候就开始的融资,进展算不上一帆风顺,而且如今领投方双湖资本的4000万美元,原计划似乎也更偏向另一家公司一些,但后来那家公司风云突变,RoadStar.ai守得云开见月明。

在这个过程中,RoadStar.ai也算是后来居上,不仅成功完成了A轮融资,而且技术上也得到了一些车厂认可,某车厂员工在横试一圈自动驾驶公司无人车后,对RoadStar.ai的评价不低。

除了乘用自动驾驶,还有几家货运相关的无人车公司也在该梯队中。

图森未来在去年年底官宣了一轮Composite Capital Management领投的5500万美元融资,据说当时投后估值就达到了4.5亿美元,领投方Composite Capital Management其时被翻译为"复合资本",但就是这家复合资本,在国际范围内还投资了乘用无人车公司Zoox。

图森未来最近一次对外亮相是无人集卡在港口的应用,意味着图森开始进入商业化试运营阶段,但当时COO郝佳男告诉量子位:没有更多融资的进展可分享。

在货运自动驾驶领域,2018年上半年最受关注的可能要属何晓飞创办的飞步科技

这位前滴滴研究院创始院长、滴滴无人车开创者,也在今年上半年正式对外亮相,主打轻卡货运,方案落地中包含了城际、高速等场景,而且货运相关的高级辅助驾驶可能会最先对外推出。

飞步科技之所以受关注,还有另一个原因是全栈技术中还包括的专为自动驾驶研发的AI芯片。

何晓飞为此挖到了大规模集成电路领域世界级专家曹宇、前英特尔首席架构师Hang Nguyen,以及前高通首席系统工程师Victor Szeto,光芯片团队,就星光熠熠。

按照AI芯片目前的热度,飞步接下来的进展可能不容小觑。

第三梯队

此外,还有几家更为低调的无人车公司,估值在3亿美元维度。但比起上一轮也有3倍以上的推进。

比如同样出身百度系的领骏科技,该团队5月对外发布的"完全看不出经过改装"的无人驾驶原型车,在一辆国产SUV基础上,领骏实现了整套自动驾驶方案,转向过弯、高速场景、收费站等均在路测中顺畅实现。

最引人注目的是,领骏无人车将所有传感器"隐藏",头顶没有醒目的激光雷达,这可能会是车厂追求的目标,虽然领骏主打的L4,但若方案成本适宜,拿来当L3或L2的高级辅助驾驶使用,毫无疑问会是新车亮点。

相似思路的还有领骏创始人杨文利的"老战友"倪凯。他们在百度都是最早一批无人车团队成员,倪凯创办禾多科技后,也是以L3.5降维应用L2的思路在推进,目前融资进展可获悉的比较有限,但听说跟车厂签到了大单。

另外"闷声发财"的或许还有吴甘沙,驭势科技在今年上半年的新闻并不多,但在无人驾驶清扫、摆渡车和停车场等有限场景的自动驾驶方面,具体落地案例一个接一个,资本方面的消息可能也快了。

与驭势科技落地场景相类似的是酷哇机器人,这家已在长沙橘子洲头落地无人驾驶扫地车的公司,近两月来气势汹汹,而且还在落地中找到了长沙中联重科这样的环境产业龙头。

最近,酷哇宣布了一轮1.35亿元的B轮融资。由软银中国领投,创世伙伴资本联合领投。

也有消息称,新的一轮也已提上议程。

OMT:巨头在侧

最后,可能你也无比关心BAT们的自动驾驶进展。

但完整故事说起来太长,不妨在此简单同步下一些新消息:

百度,起步最早,积累和探索也最丰富,Apollo亦在业内打响了名气和口碑,但陆奇的走,影响很大,不仅影响的是Apollo的对外发展,也影响着百度工程师的心绪。

不少人当初因陆奇到来而留下观望,如今尘归尘土归土,加上今年4月激励方案的变化,造成了一小波离职——但比例很小,主要去向是阿里和腾讯。

目前,百度自动驾驶技术方面启用了"老百度"陈竞凯,这位首席架构师性格谦和、为人低调,内部颇有口碑,也深受李彦宏信任,但能否握稳百度无人车的方向盘,需要一些时间来给出答案。

腾讯,进展最快,量子位之前独家曝光过,腾讯谋定而后动,去年年底完成了组织框架搭建,今年在满世界挖人推进,L3、L4并行,L3方面会最先推出产品,而且腾讯以深圳为大本营,已经拿到了深圳的第一张路测牌照。

阿里巴巴,BAT中布局最晚,实际进展也对外透露不多,半年来最大进展是透露了团队由阿里AI实验室首席科学家王刚在领导,目前团队规模50多人。

最后的最后,华为也在进行自动驾驶研发布局,但进展可能更慢——因为华为还在为团队找leader呢。

总之,目前天下大势就是这样,再过半年可能就要分出胜负,最关键的时间点也已经来临。

无人车初创公司在竞速抢排位,越往后资源可能只会越往头部公司聚集,加之一级市场开始弥散开来的"钱袋缩紧",更是可能无形中加剧自动驾驶竞争。

当然,也别忘了BAT和华为,万一内部推进不力,手握大把现金的巨头,可能也会随时改变战局——就像CV领域已经发生的那样。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2KGcUiK
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...