智慧城市是什么?国内一直没有一个清晰的定义。业内各方从自身角度出发都做过一些尝试,但目前还没有形成一个共识。为了尽可能更准确地定义「智慧城市」,机器之心决定推出「智慧城市深度访谈」系列。 我们希望通过多角度转述业内专家的观点,呈现出一个目前中国在「智慧城市」领域的发展现状及所遇困难的全貌,以供各方参考。 我们认为,智慧城市不应是高房大瓦与电子版「千里眼顺风耳」的简单堆砌。而应从体验出发,在软性环境中体现出一个城市对居民的人文关怀。 要做到这一点,第一步便是能感知市民的整体真实需求。其中,让机器理解人的语言以及「数据打通」的能力必不可少。 作为机器之心「智慧城市深度访谈」的第一站,我们有幸采访了一家在自然语言处理以及大数据领域已有多年项目经验,并有自己独特工程化思考的上市公司。与人们的印象不同,神州泰岳通过多年的兼并重组,已经陆续发展出人工智能、物联网板块,成为了一家多板块综合性企业。 本次访谈的嘉宾,神州泰岳人工智能研究院院长晋耀红博士,与 AI 大数据副总裁张瑞飞,共同向我们介绍了神州泰岳与众不同的基于语言学知识构建的 NLP 语义分析平台,及以「数据高速通道」取代「动迁式」做法的智慧城市大数据新思路,还介绍了神州泰岳如何通过工程化的思路,让人工智能算法真正结合到实际智慧公安场景中的经验。 以下为对话原文,机器之心做了不改变原意的整理: 需求驱动的语义分析工程特色机器之心:神州泰岳人工智能聚焦自然语言处理技术,业界对神州泰岳人工智能业务最起初的认识也是从「DINFO-OEC 非结构化文本分析挖掘平台」这个语义分析产品开始的,该平台是如何设计并建设起来的? 晋耀红:我之前在中科院主要做「HNC(Hierarchical Network of Concepts)概念层次网络理论」的研究,这是一套涉及词语、句子到篇章之间的关系全框架理论。 当时希望设计一套语义网络把语义给符号化,比如「高兴」和「伤心」是一对反义词,但把这对词直接输入到计算机,计算机是无法理解这对词之间的反义关系,我们希望通过用符号的语言描述让计算机能理解这种关系。 后来在北师大时做的国家课题——「针对海量文本的知识表示和计算」,也是基于 HNC 理论上的扩充研究,是十二五国家 863 项目中中文信息处理语义相关的唯一课题。 再后来创办了中科鼎富,做企业以后才发现一个个零散算法的研究,在面对客户的具体需求时是远远不够的,对方更希望直接看到产品在他们的业务场景下能产生什么效果。后来在市场上慢慢打开局面的方法,就是推出「DINFO-OEC 语义分析平台」。 DINFO 为「鼎富」的英文名,OEC 代表「Ontology-Element-Conception」,「OEC 模型」是由本体树、要素树和概念树三棵树组成。我们希望由本体树、要素树直接描述业务,由概念树来对剩下的复杂语言的语义进行处理。 OEC 平台主要做两件事:1、把零散的算法按一定规则集成起来;2、根据业务建模,即把客户的业务知识系统性地通过符号化处理表达出来,平台底层算法自动把数据进行整理。平台的定位就是把信息系统性地分类整理出来,将非结构化信息转结构化,根据算法自动把信息进行分类、提取标签。 比如在处理投诉业务的客服场景,客服系统接收到的是一条条非结构化的投诉文本信息,OEC 平台能将投诉的「对象」、「内容」、「重要性」等结构化信息从文本中分析出来。一条投诉文本可能有 1000 字,客服想要看的可能就是几个信息点,比如建议、表扬,还是投诉等标签化的信息。 目前平台底层中与 NLP 相关的算法有 200 多个。最简单的如 word2vec 这些训练的工具,在平台底层都有集成。训练的时候可以自行选择 SVM、LSTM 等算法。平台在金融、公安业务中的分类、提取功能的正确率和召回率都能达到 95% 以上。 机器之心:目前神州泰岳的 OEC 语义分析平台在业内有竞品吗? 晋耀红:我们在业界暂时没有竞品。 在算法技术路线上,我们更强调对语言本身的理解,坚持以本体论为框架,把人的语言学知识符号化,局部结合机器学习的算法。从我们在中科院期间研究的 HNC 概念层次网络理论到现在的 OEC 平台,其实都是以本体论为核心。 我们在这个技术路线下,希望在更高、更抽象的层次,用本体论的思想把理解相关的根本性的知识解决掉,剩下的适合交给算法的局部再交给算法处理。 国内其他一些跟 NLP 相关的公司,目前主要还是在算法层面希望做的更精细。受到深度学习的影响,目前国内其他公司研究的重点更多是 seq2seq 的这类跟语音相关的问题。输入的是语音的 sequence,输出的是文字流的 sequence,对句子与句子之间语义关联性,以及篇章中段落之间的关联性关注要少一些。 这种方法适用性可能会更好一些,但最根本的问题是没有真正的理解语言。单独基于深度学习的算法,在测试集上看上去效果很好,但是实际落地的场景中基本很少看到。因为在实际落地的场景中,训练的语料库往往没有那么大。 机器之心:所以称神州泰岳 NLP 技术「自成一派」的原因主要还是在选择以本体论为核心的语义理解技术路径上。能否再具体介绍一下你们的技术研发方法论? 晋耀红:NLP 对于语义领域的研究现有两大学派:一派坚持用一定的语言学知识为基础的研究方法;另一派是纯计算机的,主张完全用计算机算法来拆解语言之间的关系,包括用统计学习、机器学习、深度学习等方法。这两派暂时没有孰优孰劣之分,要靠实践来检验。 我们跟很多纯计算机学派的研究者也是朋友,他们的观点主要是,不管语言里是什么都标注出来。但这有点像大海捞针,需要考量背后的计算力及付出的代价。基于语言学的研究者则希望教会计算机人类语言的规则和知识。在这一点上,两个派别不能达成一致。 神州泰岳作为一家商业化运营的公司,主要服务企业客户,目的是在有限的时间内有效解决问题,不参加学术研究路线之间的争论。 我们从历史工程项目中总结的经验出发,把已有的人类语言学的知识,通过语义库告诉机器。在多年的积累下,我们的语义库已积累了 80000 余个语义概念,主要是中文词,包括上位词、下位词、同义、转义等等,通过语义对一个词在特定语境下的概念进行描述。 语义库是人对常识知识和语言知识的积累和表示,所以我们希望把它符号化。目前我们有一个由 30 余人的语义库团队在做语义符号化的工作,他们大部分是语言学背景的。 除此之外,还有语料库,主要对客户的文本数据进行标注,从中提取和分析出来其中包括的语言知识。前段时间神州泰岳跟北师大联合发布的 Chinese Word Vector 语料库,这个语料库生成的 word2vec 基础资源机器可以直接使用。(机器之心报道:深度 | 自然语言处理的一大步,应用Word2Vec模型学习单词向量表征) 从语料到语义存在一个知识的提炼过程,语义库和语料库是一个相辅相成的关系。 把人的语言学知识告诉机器的做法,一个最明显的优势是在应用场景下可以做到冷启动。比如公安、客服系统,用已有的语义分析框架使系统先启动起来。虽然也许一开始效果并不一定特别理想,假设准确率是 50%,但这部分准确的语料就可以作为标注语料,作为算法学习的样本,去做扩充,然后做一定的泛化。这样形成一个良性循环,不断的逼近客户要求。 目前很多深度学习应用场景下,需要足够的语料来训练。假如光训练预料就需要 1 个月,这 1 个月也许客户就没有耐心了。有些客户就是想要两天时间内就看到效果。另外很多客户数据也不可公开,无法准备出符合要求规模的数据去让机器训练。 张瑞飞:80-90% 的客户都有这样的问题,比如中国电信,客服的动单分类有 2000 多项。电信自己整理了 3 个多月,每一个分类下的数据都很少,但电信也不可能在每一个细分小类都帮助我们训练出那么大量的数据,提供给机器学习算法训练。 实践过程中很多场景都有这个数据冷启动的问题。晋博士提出的方法是在没语料的情况下能产生一定效果,然后在效果上进行优化迭代。 晋耀红:再比如,我们最近在给工信部做一个公文写作的研究课题,其中一个模块就用到深度学习的方法来对句子进行复述,把表达方式上弄得更丰富一些。但我们发现公文的语料就很少,我们把所有工信部的公文全部搜集起来才 18000 篇。18000 篇对于公文来说已经很多了,但是对于机器 seq2seq 的算法还是很少,这样用深度学习训练出来的算法还不可用。 所以我们就结合人的经验知识,让机器在 18000 篇里面自动学习每一种公文类型,或者每一个发文对象写作的规范或者写作的格式。利用学习的结果去摘取或者自动写一些句子,所以在这种场景中我们还是把人的知识结合起来。 工程经验帮助平台完善底层算法机器之心:在面对自然语言理解的问题时,很多训练语料都需要人工提前标注。但也是因为语言的范畴很大,语义特征定义起来很困难。那语义模型的泛化能力的根本,是否取决于人们花多少时间去标注出多大规模的语料? 晋耀红:这里面其实涉及两大类知识。 第一类是需要人工定义,用于理解基本词汇语义的「常识性知识」。比如我们这个对话的场景下,很多关于人工智能的知识都算是常识,开始对话前对话双方就都理解了,这就建立在双方都互相了解一些特定词汇的概念的基础上。在我们这个平台模型里,主要体现在常用词汇的语义和语义关联性,比如「高兴」和「伤心」这两个词在各个行业场景中的意思基本不会变。这类常识性语义的知识基本靠人工来构建。目前我们已经构建了 80000 多个资源的语义库,覆盖了大部分的中文词汇。 另一类是可以人工给的,但也可以通过人工标注让机器自动学的「非常识性知识」。比如特定领域的分类体系,需要人工给定义,机器可以进行一定程度的学习,但主要还是靠人工。但也有一些领域可以通过语料标注来自动学的。比如司法领域里,一些收集不全的专业法律术语就可以通过算法、语料让机器自动学习。 张瑞飞:深度学习的方法要有泛化的能力,一定需要数据去驱动。 举一个实际情况例子,我们对 A 市公安案事件的学习,模型对案件分类、要素提取的准确率,直接用深度学习的方法可能能到 70-80%,但是一放到 B 市、C 市公安案事件,准确率就会降到 50% 以下。因为比如一些 B 市、C 市的方言语料,系统在 A 市的文本中没有见过。 那么解决的方法,第一种就是叠加使用晋博士基于本体论的方法。因为本体论是可以通过小语料用符号规则来表示的,注入先验知识。我们通过这个方法把深度学习模型 70-80% 的准确率提升到 90% 以上。 第二种是通过迁移学习的方法。 第三就是使用大量标注语料。我们对整个公安 400 万个案事件进行了标注,提取了该领域的词向量 20000 个。通过上面多种方法的叠加,最终准确率达到 99%。达到这样的水平,我们才能说有泛化能力。 这个过程付出的成本还是挺大的,因为公安网不允许连外网,一定要驻场标注。同时还需要通过一线业务人员的反馈,才能知道提取的特征的准确性。而且在模型黑箱训练的过程中,还没法进行修改。 所以不结合晋博士的先验知识的能力,我们是没有办法在公安落地的。如果准确率只有 75%,肯定不够,平台就没法用了。 机器之心: 就上述公安的项目,标注的成本和效率大概是怎样? 张瑞飞:我们驻场了 50 多个人,标注了一年半,标注了 400 万个案事件,基本覆盖了国内至少 30、40 个地市级城市在过去十年的所有案事件。 案事件有一些特征,就是例子特别少,数量跟新闻根本没办法比。另外案事描述一般特别短小,几乎没有统计的特征,没法根据词频统计重复出现的词汇。 如果我们单纯靠深度学习,其实效果并不好,就必须结合的晋博士的理论进行结合,当然结合方式有深浅之分。 机器之心:在公安场景中,每个刑警基于自己的断案经验,可能都会有一套专属的断案方法论,比如需要搜集哪些线索、哪些线索最有价值。OEC 平台在建设过程中是如何使用人的经验?并且在实际应用中如何与人的研判信息相结合、交互? 张瑞飞:我们的「神州泰岳智脑 2」的系统里,研判路径是自学习的一个过程。 每个刑警在断案的时候的确都有自己的思维规律,但是这些思维规律主要可以归纳为四种——图谱、时间轴、地图、标签分类,这是我们总结的基本的研判模式。 对每一个研判路径,我们定义了需要输入的准确的数据类型,在界面上会要求业务人员输入相关信息,系统在后台就能形成一个参数。 也许在训练半年以后,系统就可以根据案件自动分类,在没有人工干预前,沿着以前的研判路径进行判断。做到这种程度就可以减少反应时间,这种预处理在需要时就可以马上针对大批量案件计算出来路径,比以前可能要算 48 小时效率高很多。 另外,这个系统可以替代人对已有线索的遗忘。人在专注于一个焦点问题时,可能会忽略之前的线索,这时系统可以帮助人去处理一些背景信息线索,让人可以把精力聚焦在最需要关注的问题上,而又不会忽略掉重要的背景联系。 这是我们倡导的一个人机交互的模型,做到这一步后,我们希望后续可以帮助公安去自动地发布作战指令,甚至去建设一个真正的「公安大脑」。 在这个平台的帮助下,当遇到重大案子而派出所没有足够研判的警力时,就可以申请技侦、现场勘查、刑侦等资源,像会诊一样,多个部门一起形成一个指挥方案;或者突发一些重要事件时,公安需要马上将各种信息结合起来的时候,人工智能的威力就能很好体现。合作作战平台带来的应急和同步上案能力的提升是传统的合作作战方案给予不了的。 「数据打通」的新思路机器之心:神州泰岳除了语义分析 OEC 平台,还开发了一系列大数据产品。自然语义处理技术要在实践中落地,底层的数据打通是否必不可少? 张瑞飞:数据是实现人工智能技术应用的必要前提。在未来的五年,我们觉得数据打通和共享是常态。 公安现在建大数据中心,就是想解决公安部内部信息打通、融合的问题。 政府最高层是有意要打破这个数据壁垒的。比如,公安部部长赵克志在深圳讲:「要大力推进公安数据智能化建设,坚决打破部门警种壁垒,推进数据融合共享,加强高端集成应用,助推警务流程再造。」 我们觉得,我们目前在做的事情跟赵部长提的理念非常接近了。 为了帮助企业管理数据,我们做了三种数据打通:结构化数据和非结构化数据打通——「Dinfo-OEC 语义分析平台」、互联网外网数据和企业内网数据的打通——「蜂鸟信息采集系统」、企业各类应用系统和第三方系统之间的高速数据共享——「Buffer 数据流水线」。 机器之心:能否具体介绍一下「Buffer 数据流水线」是如何帮助机构内部和机构之间实现「数据打通」? 张瑞飞:传统大数据公司做智慧城市的数据打通通常是「动迁式做法」,建一个大数据平台把所有现有分布在机构内部各处的数据收上来。但我们做的是建高速的数据共享通道——「Buffer 数据流水线」,将企业内部各类应用系统和第三方系统之间建立连接。 我们认为,通道的方式比动迁的方式更好。如果把通道的做法比喻为修路,原来的数据库比喻成村子或者楼也好,通过通道我们可以把它连成一个虚拟的数据资源池,就是数字的虚拟化。同时数据高速通道加速了数据处理速度,打通的过程中就可以开始服务客户,而不是等建成后才服务客户。比如运算速度不够,就提高运算力;如果客户把数据输给我,我会把更多的数据接入进来帮你碰撞,然后把结果还给大家。这样就避免了一些人为的壁垒。 另外,这背后其实有深刻的计算理论,我们认为传统的 ETL(数据仓库技术,Extract-Transform-Load,抽取-转换-加载)应该要被颠覆掉了。这个说法也不是我们提出的,是 16 年 Kafka 的创始人在旧金山 Qcon 会议做了一个「传统 ETL 已死,而实时流长存」演讲。 两年前,我们跟公安探讨过如何替代掉大数据 Lambda 架构的方式。「Buffer 数据流水线」是我们当年理念的一个落地。 在 Lambda 架构里,实时要写一条程序,批量处理时要再写一条程序,这样就没法维护数据的一致性,而且程序开发特别复杂。我们必须有一个通道去把实时数据和批量数据做在一起,然后就能处理近乎无限的数据源。 比如,亚马逊今天可以在一个通道里不区分实时、批量地去处理 50 万以上的数据源。我们需要这样的方法来适应大数据今天的变化速度,这样我们才能在交换和共享的过程中去加载一些像深度学习这样的算法,能在通道里把数据都连接起来。 当然在这个过程当中,我们认为传统的 Oracle GoldenGate 或者 Dell Shareplex 就没有必要存在了,因为我们在适配这层当中就把这个传统的做法取代了。 「Buffer 数据流水线」系统其实是几个技术的结合:第一,流式数据处理技术,比如说像 Storm;第二,流数据和内存数据库(数据空间)的映射,在这里面可以处理事务和带状态的逻辑;第三,数据源端的适配,比如说 Hadoop 导到 GreenPlum,Oracle 9 到 Oracle 10,或者 Mysql。 国内的公司很多做的是开源的封装,主要在表层,但我们主要是在大数据底层去改代码。当然也会去借鉴一些开源的代码,因为开源有好多丰富的场景因为锤炼的成熟度比较高了,但是从底层去优化跟封装就产生了完全不同的两个体系。 用开源的封装方法存在一些问题,比如封装好了,Spark 的更新,系统是跟不上的。另外,封装解决的问题比较表层,一个看起来有很多类别的平台,但是遇到要如何分析这些大数据的问题时,往往会卡在很基础的技术上。 数据的交换与共享是大数据应用的大趋势。在底层去 Lambda 化和替代传统的 ETL,以及打通数据流水线的高速公路,就是我们最近在技术上必做的事。 大数据+人工智能如何结合落地?机器之心:我们其实一直有意寻找在智慧城市中多元大数据结合分析语义的案例。之前提到神州泰岳还与云从科技这类做安防领域计算机视觉的公司合作,目的是将文本和视觉的语义信息进行融合吗? 张瑞飞:语义和图像在将来是必须结合的东西。 贵阳公安提出的「人像大数据」,所谓人像大数据其实就是人的大数据和像的大数据,以及大数据平台三合一。像的大数据就是图像。人的大数据从哪来?只能从文本来。 在刻画人物时,公安主要是通过卷宗文本、DNA 档案、现场勘查记录、档案、手机聊天信息、互联网信息等,把大数据提取出来的线索串并起来,使人的特征浮现出来,再跟图像进行比对。这就是一个实际化的应用场景。 其实视觉目前也有不成熟的地方,今天的视觉识别都还是从一个较窄的领域去做识别,有较大的局限性。比如说人脸,一旦被遮挡了,对人脑去识别是没有什么区别的,但是对于机器就有区别。 应用领域窄,就限制了视觉技术在公安领域的应用。比如公安有一个亿人脸的数据库,机器通过身份证照片识别出 95% 相似度的人脸照片可能会达到几百张。几百张相似的人脸如果都要公安直接全部去跟踪筛选、分析,数量就太大了,在人力物力成本都不可行。 对于公安来说要达到可用的程度,就必须压缩到十几张的数量,怎么压缩呢?一方面是案事件的串并,把人的线索提取出来。比如说戴眼镜的,就从几百张里面调出戴眼镜的几十张;还有总穿牛仔裤或者总戴鸭舌帽的,走路姿态是右肩膀还是左肩膀比较高?这些特征都可以从视频学习中提取出来。 我们通过这种方法使视觉算法在一个大的数据集中的应用变得可行,通过平台把算法和工程形成一个互补,从而能把人准确地从数据中挖掘出来,这就不是一家创业公司可以单独做到的事情了。 我们在贵阳与云从的合作,创业公司偏向于只提供视觉识别技术 API,不太喜欢驻场解决工程化的问题。因为对于像云从这种创业公司来说,更重视的是短期内占领更多的市场,而不是在一个点做深。但是总要人去把这件事情做深,所以神州泰岳就集成整个应用,提供工程化解决方案。 我们虽然是做语义的公司,但是神州泰岳在深圳公安是人工智能的组长,团队中包括腾讯、华为在内。我们集成的人工智能就不能理解为语义本身了,而是整个人工智能和大数据应用到底怎么结合起来的课题。 所以越是接触这类项目,我们就越认识到局部作坊式研究的一个个算法必须被聚集起来,这就是我们要做一个平台的原因。 归根到底,人工智能就是个工程的事机器之心:神州泰岳做了那么多产品,什么时候决定要往工程化的路线去做人工智能? 张瑞飞:当我们 16 年 8 月份启动「智享云平台」的时候,对未来方向其实也还有点模糊,但是现在看来越来越清晰。 在未来我们认为单一算法很难构成竞争力,因为会有很多新的分支而且算法很容易被复制。比如 ITGCM,懂 GCM 算法的人如果要做 ITGCM 就很容易。我们考虑:单纯专注算法研究能带来的突破是不是太有限了?第一,单纯的算法带来的实际业务突破可能不会超过 2%;第二,算法太容易被拷贝了。 我们问过自己一个问题,企业在发展的过程中应该沉淀的是什么?如果说是科学家和算法的话,那可能就错了,因为其实沉淀不下来。 另外,我们也去真正思考成本的问题。比如神州泰岳有 600 人的人工智能团队,这一年的人工成本如何解决。在人工智能这么火的时候,我们如何维持三年以上工程团队的稳定性。这些问题就切切实实摆在企业面前。这些问题解决好了,某种意义上讲,我们的项目管理就做好了。同样一个项目,如果我们的成本是 400 万,别人的成本是 4000 万,我们觉得他们没法跟我们抗衡。 第三点,人工智能不太可能走向「魔幻人工智能」,即算法不太可能轻易发生大跃进。我们其实试过特别新的算法,除了某些算法我们觉得确实有提升之外,大部分算法其实还是一种理论尝试,最后还是回归到一些传统的深度学习模型中。 这样我们就想,是不是今天的人工智能走工程化的路线就是必然的选择? 这个结论背后有两个基础理论:第一,人工智能是基于形式推理的而建立的,而形式推理是可以机械化的;第二,信息论和控制论的发展,导致了形式推理可以工程化。 包括深度学习或者 CNN 神经网络在 08 年以后逐渐发展,我认为都是对这两个理论的扩充。在这两个基础理论不变的时候,我们不敢设想魔幻人工智能的产生,只能是沿着工程化的方法去做人工智能。 工程化的路线,就决定了我们要去做各种技术储备,比如蜂鸟信息采集、Buffer 流水线、流程引擎(用于合成作战)、底层大数据平台、DINFO-OEC 语义分析平台,智享云平台等等。 这些工程化平台都是为了实现技术落地。没有平台,技术就落不了地。我们做了两年,感觉到要实现产业化落地,这些付出是必须的。 我觉得我们这类面向大 B 的公司都可以尝试:在原来在大 B 公司积累的资源和工程化的经验的基础上,再锐意突破一些深度学习的算法技术,做出自己的算法特色来,进而打造出独特的落地场景。这种落地是很难被取代的,这种工程化的投入会把公司差异开来,而不是算法把大家差异开。 机器之心:我们了解到中国中文信息学会和神州泰岳合作做了一个产学研平台——「中文信息(深度处理)开放创新平台 China-NLP」,能否介绍一下创办这个平台的初衷及意义? 张瑞飞:这个平台的出发点是人工智能需要从手工作坊的做法走向工业化的做法。 目前很多学校的老师做研究的方法依旧是手工作坊的作法,是在局部研究一个一个算法,对于全局的需求没有明确的认知。我们认为,人工智能除了算法本身之外,有很多问题是在产业落地的过程中才能发现并解决的。 比如数据本身的交换和共享问题;怎么把 tensorflow,或者其他的深度学习工具,变成分布式的,或者极限化的一个资源池;能不能够用最小的硬件,或者 CPU 的指令级去优化现在的计算。这些都是工程化的过程中,一个平台要考虑的问题。 又比如一位教授做了一个针对医疗领域的深度问答引擎,跟医院对接的时候就会遇到这个引擎如何与已有的系统对接的问题;另外,这个系统跟已有的病人病例系统是什么关系?怎么来评估这套系统能不能上线?上线后需要什么框架?数据怎么来? 这些问题的出现,就极大地阻碍了学术界的成果向工业界转化,有时候基本意味着转化不了。 我们推出这套平台,就是希望把神州泰岳在产业里积累的工程化经验,释放给学术界的老师们,让老师们依托这个平台更好得把算法的应用到实际需求中,向产业化转化。 自然语言处理的未来:语义终极特征机器之心:神州泰岳在自然语言处理领域的研究有什么未来的计划? 晋耀红:首先还是需要深入细化本体论设计,不同的场景下对本体的要求是不断变化的。本体业务建模这块还有很大的发展空间。 另外自然语言的能力包括理解和生成,后续可能考虑增加语言生成的能力。如公文写作能力。语言理解和生成是硬币的两面,目前平台主要着重于分析的能力。先分析公文写作,句子、段落之间怎么连接的,在这个基础上分析文章框架,学习每一个词、字的应用。 公文写作复杂,是未来研究的一个方向。其中有很多困难,目前像市面上一些写诗的应用属于比较娱乐化的,但是公文写作每一个字、每一句话都不能错,不能有歧义。 我们希望做一个效果可控的公文自动生成应用。公文写作有很多困难,有很多潜规则、隐知识,但因为是严格的八股文,也有优势。根据我们的调研,一般写公文都是先去研究原来的公文是怎么写的,然后在以前的公文基础上进行修改。这个过程跟机器学习其实有相通之处。我们对于产品的设想是希望能让公文写作人员输入感情色彩、表达方式、紧迫性等元素,让机器自动生成文章。 作为公文写作研究的中间结果,我们也做了一个自动写诗的应用。但是这个跟别的写诗应用的差别在于可以每一句话让用户输入一个词来表达整句诗的意境,比如乡愁。 机器之心:深度学习算法目前在自然语言处理还没有实现大的突破,对于这一点神州泰岳有什么思考? 晋耀红:我们认为原因是语言的特征更抽象一些,不像图像 RGB 三种元素就是它的终极特征,语言没有终极的特征。 我们在中科院做的 HNC 概念层次网络的工作其实就是希望找到语言的终极特征。这里面有很多有意义的工作,但目前价值还没有完全发挥出来,可能还很少有人能认识到语言终极特征的重要性。 目前各种算法比赛,我们做企业的也要从客观角度去看待,可能有时候是在封闭的集合去刷分,发现了问题针对性的改一下就能提高。但其实很多情况下也许不能体现实际应用过程的水平。 当然,比赛也许能一定程度促进算法的发展,对学术研究有用。但国内一些公司通过比赛来提高知名度,如果这个过程不能提升算法在实际工作中的效果,在资源上可能造成了一定的浪费。 现在的学术界更多的是在刷榜,做一个算法去刷分。国内的学术研究,很多时候就像一个老前辈说的,就是在做习题,别人在英语里做了一个,咱们把它拿过来汉语里做了一个,就是创新。但是其实很少有去研究这背后终极的问题,或者说去研究一个新的算法。这种创新性的工作还是很少。 张瑞飞:在研究方向的话,我们希望恢复机器学习的本来面目。 邢波教授前一段时间说,在做人工智能模型算法梯队里存在一个知识退化的趋势,因为人们开始把深度学习来代替整个机器学习。神经网络是机器学习本来的分支,但还有其他的分支。 我们在工程实践的时候,在做标注的时候,不在乎是否一定要用深度学习。 工程化的任务应该是去评估业务目标如何分解,需要把整个算法能力框架搭建起来,然后找最有效、最捷径的算法。 也许对深度学习一个小的改变就是一篇论文了,但我们觉得这个没有太大的意义。我们企业做人工智能考虑的是成本,追求的是成本和成效的平衡。 ]]> 原文: https://ift.tt/2orhS9Q |
没有评论:
发表评论