2018年4月26日星期四

专访吴明辉:明略数据成长为企业级大数据独角兽的秘密

近日,明略数据宣布已于去年完成 10 亿人民币 C 轮融资,投资方为华兴新经济基金、腾讯产业共赢基金。

 明略数据是一家大数据应用公司,聚焦公共安全、金融、工业与物联网等行业,基于知识图谱数据库的落地实践帮助行业客户实现业务智能化。

 目前,明略数据已与省、市级公安局、交通银行、中国人民银行、光大银行、中国中车、上海地铁等行业客户展开多方合作。

 毕业于北大数学系,明略数据创始人吴明辉对数据有着深刻的理解,并先后创办了秒针系统和明略数据两家公司,用数据赋能行业。

 关于吴明辉和这两家数据公司的故事,他跟我们聊了聊。同时,从他的创业史,我们能一窥这些年大数据企业级服务在中国是如何发展的。吴明辉,秒针系统、明略数据创始人兼董事长

以下为采访对话实录:

我为什么做明略数据?

 当时决定要做明略的时候,我看到中国企业级服务正处在天时地利人和的状态。与美国相比,中国 To B 领域独角兽企业数量偏少,估值较低。这就意味着企业数量会增加,也就是「天时」,企业数量增加,To B 服务就有新空间。「地利」是指技术进步,「人和」是指中国人口红利消失,人口结构升级,企业有通过提升效率来提升竞争力的共识。

2013 年斯诺登事件发生以后,国家出台了很多政策支持国产软件发展。在这个事件发生之前,因为中国的 IT 产业比美国落后很多年,很多领域的国产软件无论在功能上还是稳定性方面都比不上海外公司,大多数只能靠价格取胜。当时我看到了国产软件即将崛起,还有大数据产业兴起,就创办了明略数据,帮助客户搭建大数据平台。

创业过程中运气也很好,公司注册一个月之后我们就签下了银联。注册一个月的公司服务银联,这是很惊奇的一件事情。当时自己也总结了一下:我们当时在技术上有很多的积累,在创办明略数据之前,秒针系统已经是营销大数据市场份额最高的公司,当时我们的团队在处理互联网类似的用户行为数据,和 BAT 是一个数据量级的。

 但是后来,我们的数据平台产品服务了大概三、四个月之后,就开始发现源源不断出现竞争对手。所以我当时就跟团队讨论方向,最后我们自己得出一个结论:在今天的互联网时代,公共基础建设类的技术产品,基本上就没有创业公司的机会。

 所以我就快速的决定转型,一定要去切行业细分市场,因为行业市场的数据首先它有价值,能用起来,而不是只是存起来。第二个是垂直行业化,就是数据处理技术不能仅仅依赖简单的开源,在垂直行业也要找有壁垒的数据场景。

 我们当时研究了海外所有的大数据公司,也验证了「做应用这一层公司的市值远远大于做工具的」这一假设。在做应用公司中,做的最棒的就是 Palantir,看到这家公司之后,我们就决定开始朝着它的方向做,而 Palantir 最大的业务领域就是安防。

 同时,我们在接触银行、公安、轨交等看起来很传统的公司过程中,惊奇发现它们在数据底层方面已经做了很多准备,也对数据指导业务趋势有很清楚的认识,问题在于行业数字化程度仍然不足,市场上也找不到合适的服务商。我们认为,这就是明略的市场机会。

 在管理秒针和明略这两家数据公司中,我自己一直有个观点:坑就是机会,能轻松搞定的就不是机会。进入市场的时候一定是有困难的,当时我说:「我们就去试一把。」

 我们试的时候发现传统公安行业的软件有很多提升空间,我察觉到这真的是大机会,需要赶快进入到这个市场里面。

在安防领域的初步摸索

 第一版做出来用了半年的时间,过程中我们也发现,其实公安客户的团队文化也很简单,直接。因为他们每天工作压力太大了,你能帮他们解决问题,就一定有市场。之前很多软件公司跟公安合作不起来,都是因为他们没有真正解决问题,没有给真正的一线的警察解决问题。

 我父亲原来也是一个警察,基本晚上都很晚回家的,每天都是各种执行任务,很辛苦。后来我们真的开始解决问题以后,就越来越深地进到这个市场了。然后我们的产品就开始不断迭代,走到今天。

 我们是安防领域接触警种最全的公司,是做数据治理和融合做的最好的公司。2015 年,我们推出了针对公安行业的人工智能大脑「昆仑镜」,在海量的公安数据基础上,构建了公安行业知识图谱。

 过程中其实问题很多。最大的问题是原来的系统太多了,一个公安局加起来可能就有上百个系统。

所以我们要解决的第一个问题就是把这些数据整合到一起。这些数据很乱,还「年久失修」,所以我们业务开展的头半年解决的核心问题就是怎么把这些数据融合到一起。这其实正好也是原来最开始我们公司的初心。

 相比于传统的做法,我们是要把所有数据都汇聚到一起,数据和数据之间要连接到一起,才会产生价值。但是如果你只是把数据都存在一个硬盘上,它们中间没联系,其实跟传统数据库没区别。所以我们能看到,最大的挑战就是这件事情:怎么能够把公共安全这个行业里边的这么多种多样的数据,我们叫多源异构数据融合到一起,这就是我们看到的最大的挑战,后来我们公司投入了大量的精力来解决这个问题。

 跟传统的数据服务公司相比,我们的优势在于能够处理各种类型的数据和底层结构,解决传统数据公司无法面对的问题。而且,我们还将案例沉淀,固化成产品,复用在不同客户场景。这是我们特别骄傲的一点,明略在公安领域的覆盖率和成功案例遥遥领先。

 从安防到工业物联网和金融

 2015 年,明略数据接触了地铁轨道交通行业,并且实施了第一个轨交大数据平台项目。到现在,我们看到,这个领域的市场需求很旺盛。当时,我们签地铁轨道交通领域的一个客户,他们是国内制造业企业的绝对老大,在全世界也是中国拿出去的一张名片,他们也看到了大数据的机会,所以当时就想选一个大数据厂商。我们当时竞标的几个竞争对手基本上都是行业领军的 IT 企业,但是最后我们赢了。

 我觉得我们赢在诚意,我们派去的团队打动了客户,客户说,你们派过来的人是天天可以陪着我一块工作的,而且团队也很优秀,所以本土的客户很信任我们。

跟着客户一起工作之后,我们发现其实工业数据有很多痛点。第一,数据量太大。举个例子,一个机车,不用说后面的环节,光车头上大概就有上千个传感器,每个传感器每秒钟都要发送很多信号,如果把这些数据都存下来的话,一辆车一天的数据已经能够达到几百 GB 的量级,根本没法存。后来,我们对每个传感器上各种各样的参数设置临界值,超过多少或者低于多少预设值的时候,就把这个时间点前后几秒钟的数据存下来。

 数据存好了,就面临了另一个问题。这些数据发回来的请求速度是很快的,需要系统具有实时计算的能力。我们对计算引擎做了很多优化和改进,接下来再利用上面的数据去做数据挖掘,甚至做 AI 模型。这些其实都不简单。

 还有一个挑战,比如一个车车头有很多的零部件,但是不同的零部件可能来自不同的厂商。车上面不光有车身系统,还有轨道和信号系统等等,每一个系统都有自己的数据,这些数据之间还有协议的问题,加密的问题。想把它们全部都连接到一起,并按照我们的思路去解决问题,这本身就是一个很「重」的工作。

 到今年 4 月,我们明略已经做了四年,这四年也是通过这种「重」,积累了大量懂行业的数据人才。

后来我们开始做金融,起初我们做的是一个评分模型,当时市场上已经有很多公司在做了,竞争非常激烈。

但其实,我们在金融领域做的这件事情,本质上来讲是我们公安业务的延伸,因为数据挖掘和AI算法是我们的强项。每一个金融集团,旗下都有很多板块;一个银行的系统可能包含好几百个组件。我们做的事情是帮它们把各个板块的数据连起来。整合完之后,在这个基础上帮他们解决业务问题,比如说员工的内部审计,反欺诈,还有交易分析等等。这些其实都跟公安有关系的,因为公安系统里有一个专门的部门叫经济侦查,就专门处理这些案件的,处理完了以后一般都要到银行来找证据。本来就有联系,所以我们就顺藤摸瓜做过来了,这个东西和传统的风险评分不太一样。我们其实更多的是把这些数据关系转变成知识图谱,进行全维度的风险画像的展现,和公安有些类似,所以我们进入金融领域有一些天然的优势。

明略的产品布局逻辑

我们的方向是「坚定地做深,做垂直行业化」。去年,我们发布了行业人工智能大脑,也就是明智系统,目的是更容易为行业服务。它包括面向AI的大数据治理产品CONA、知识图谱数据库蜂巢(也就是NEST),这些产品会通过行业大脑SCOPA的机器学习、符号推理等能力实现秒级运算以及实时在线分析挖掘。这些产品是我们构建公安大脑、金融风控大脑、工业安全大脑的基础。

我们的目标其实是要设计开发出来一个像人类大脑一样灵活的存储器,什么信息都能存。

当然这个目标还需要很多努力,我们花了很多的代价,还在不停地往前走。这个储存系统里面需要既有传统的搜索引擎的索引,就像像百度和Google,又要有智能的图文检索,最后要像人的大脑一样,很灵活地把数据存起来。

在系统之上,我们提供了一个自然语言交互入口——「小明」,它能够以文字对话的形式降低人工智能产品的使用门槛,提供高效的业务支持。

 当你的功能太多,很多东西都联网的时候,你会发现任何人机交互形式都不如自然语言交互。这就是小明的必要性。

 今天为什么大家都在抢智能音箱这个入口,因为确实每个人生活最理想的状态,就是每个人都有一个保姆。那个音箱其实就是你家的阿姨。同样的道理,我们是做企业级服务的,在工作场景大家都希望有个秘书,是不是?

 小明就是这么一个目标,但小明和 Siri 最大的区别是什么,在工作场景里边就不要语音了,因为会打扰别人,所以我们就用文字输入的形式。比如现在我想查这个人最近跟谁有往来过,你就打这句话就行,背后可能有一百个系统,有很多的数据库,来帮你挨个去查,这就是小明的价值。但是具体到基层实际应用的时候,坦白讲还是有很多问题,离大规模应用还有距离。

这一整个体系我们称为明智系统。

 数据业务是一个由「重」到「轻」的过程

 你可能也发现了,在我们的业务模式中,人的参与度还是很高的。其实,今天去看 Palantir 也是这样的,我上次看他们的报告,分析师都已经 1500 人。我们的团队发展得也挺快,所以这个事儿还是挺「重」的。

 逐步自动化这件事情它有个过程,人工在这里面扮演的角色,最开始确实会特别重的,可能甚至有很多是体力活,因为我们的业务特点就是人到现场。但是慢慢的就会变得更简单。

 举个例子,我刚刚说的数据融合的过程,最开始是要去人工的去看,随着治理的数据越来越多,这个时候后台的系统就可以把一些人工的事变成自动化去做,甚至用人工智能去做。

 在公安领域,公安里面有很多不同的业务,需要的模型都是不一样的,一开始第一个客户的第一个业务可能都是人工重新给它定制,但是定制完了以后,比如情报分析这个场景,客户和客户之间,很多是一样的。所以说这是一个可复制的、从重到轻的一个过程,但是一开始是免不了需要很多人去做。

 明略选领域的时候,会去看行业本身的知识密集性是不是很高,是不是需要比较优秀的知识劳动者才能去从事的行业,这是第一点。第二点就是说它本身需要的量很大,比如知识型工作人员在这个行业里面的人是远远不够的,是供不应求的。这些行业我们都会去关注。

 其实公共安全就是这样一个行业,中国的警察人均服务人口数量,是全世界平均的三倍,但是老百姓对警察的要求是很高的,每一个老百姓都希望有人在背后保卫他的安全,很多人还想要个福尔摩斯。所以我们公安部部长一直都在提倡向科技要警力。

 目前计划我们还是先聚焦在现在已经扎根的这三个方向,行业人工智能这个事情就是要一步一步走。以我们今天的体量来看,我们的资源还是在这几个方向,既然有先发优势,我们就好好做。

]]> 原文: https://ift.tt/2HvoDz6
RSS Feed

机器知心

IFTTT

没有评论:

发表评论

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...