2018年7月31日星期二

搜狗营收创新高,股价却跌7%,对话王·玄奘·小川

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

这就令人看不明白了。

昨天(7月30日),搜狗交出了截至2018年6月30日的第二财季成绩单,总营收3.014亿美元,比去年同期增长43%,净利润3820万美元,比去年同期增长58%。

搜狗营收示意

这是一个什么概念呢?

搜狗自创立以来,就没有单季度赚过如此多的钱,而且历史上首次营收迈入3亿美元大关——开始奔"4"。

结果上来说,该是一个满心欢喜的成绩单才对。

然而大跌眼镜的是,财报发布后,搜狗股价不涨反跌,最高跌幅超过10%,最后收盘于9.55美元,整体跌幅达7.55%

搜狗股价走势

这就好比考了个历史好成绩回家,却还挨了一顿胖揍。

资本市场波云诡谲,玄机深深深几许。

搜狐拖后腿

但搜狗这顿打,也并非全无原因。

首先,受自己亲爹搜狐不给力拖累。

搜狐昨天也发布了上一季度财报,总营收4.86亿美元,相比去年同期增长5%,净利润亏损4900万美元,比去年同期相比有所收窄,但亏损幅度之大,一个搜狗净赚的钱,都不够填补了。

更何况搜狐这份财报,比华尔街分析师们预计的还要差。

原本根据雅虎财经汇总的数据,华尔街4位分析师平均预计,搜狐第二季度总营收将达5.022亿美元。但财报显示,搜狐第二季度总营收为4.86亿美元,不及分析师预期。

所以搜狐财报一发,股价盘中一度大跌逾20%,最后收盘于26.45美元,整体跌幅达13.364%。

作为中国互联网的老大哥,遭遇这样的境况,也难免令人一声叹息。

好在有落有起,张朝阳在财报媒体会上也透露了,这只是搜狐复兴的第一步,也在进行视频等核心业务方面的转型探索,并且明年就有望盈利了。

另外,搜狗也不是全无自身原因,同样成绩不及华尔街分析师预期。

根据雅虎财经汇总的数据,此前5位分析师平均预计,搜狗第二季度总营收将达3.0455亿美元。

但最终财报显示,搜狗第二季度总营收为3.014亿美元,不及分析师预期。

加之最近大盘整体情况也不好,道琼斯指数昨天下跌了0.57%。

所以搜狗算是好业绩没遇上好天气。

流量和广告监管

但是否能短期出晴,要看华尔街资本家们认不认可搜狗短期的目标了。

依然在财报发布后,搜狗CEO王小川和CFO周毅,回答了分析师们集中关切的问题。

其实最核心的就3个。

一是广告监管事件。就在前段时间,由于抖音在搜狗搜索引擎上投放侮辱英烈的推广广告,抖音和搜狗都遭遇监管,被中止开展广告业务,目前也没有重启风声。

于是营收上不可能不受影响。

但搜狗CFO周毅的说法是,抖音事件的影响确实会体现在第三季度,但对财务的影响是一次性的,搜狗已经采取了补救措施,营收增长在第四季度就会恢复到正常水平。

另外,在该事件后,搜狗也建立了团队,并且在广告投放监管机制上使用了AI,相信也能进一步提升运营水平。

第二个分析师关键词是流量。而且最为关切的是,搜狗目前的流量中,来自腾讯和OEM(手机预装)等渠道的流量。

周毅的回答是,在第二季度流量构成中,有25%属于原生性流量,37%来自腾讯,还有38%来自OEM渠道。

并且得益于搜狗采取的一系列举措,预计到今年年底原生性流量的占比将从现在的25%上升至27%-28%,来自腾讯的流量贡献将保持不变。

加之竞争加剧,来自OEM渠道的流量占比将下滑1%-2%,也就是说,到今年年底将从38%下降至37%-36%。

实际上,从搜狗CFO回答中,侧面也能看出OEM渠道流量贡献力的进一步降低,性价比也将进一步减弱。

最后一个关心的方面是输入法和智能硬件

关于搜狗输入法,核心问题是如何商业化以及何时商业化。

按照王小川的回答,输入法的变现的核心思路是与搜索结合,然后运用AI等技术,探索到用户的搜索意图,引导用户产生更直接的搜索行为。

具体产品方面,搜狗CEO透露,新版产品的测试已在本季度上线,预计会在第四季度对收入产生比较明显的影响。

至于智能硬件方面,王小川表示年内还会推4款产品出来,并且到明年能产生百万级的销量。

此前,搜狗已经对外推出了主打翻译的搜狗旅行翻译宝,以及主打速记的搜狗速记翻译笔。

王小川认为,互联网起家的搜狗"大举"进军硬件,核心还是将搜狗的AI和语音搜索整合其中,并且带来差异化的核心竞争力。

实际上,这一系列的硬件,还承载着王小川最新的人生目标。

王·玄奘·小川

可能你也奇怪了,上市以后的搜狗,为啥在缺乏"基因"的硬件领域频频下注?

在近期,量子位围绕该话题也跟王小川有过专门对话,或许能解答你部分疑问。

首先,之所以亲自下水做硬件,是因为"舍我其谁"了。

搜狗以软件互联网起家,拿手擅长的也是互联网产品,但无论是翻译,还是速记,目前在AI加持下,都已经有了质的飞跃,都可以更便捷地进入寻常百姓家。

然而目前最核心的移动智能硬件——手机,在硬件如麦克风阵列,在计算单元方面,都还无法满足直接搭载相同效果软件的诉求。

于是为了更好打磨软件,也为了更好从硬件反馈,搜狗开始软硬件一体化尝试,而且是软件定义硬件的方式向前发展,如果找硬件合作方,从设计到迭代,可能都不会由自己完全掌控顺遂。

其次,硬件担纲的是搜狗AI的新品牌。

王小川说,通过硬件产品,让用户能更直接了解搜狗目前的AI能力和AI应用,利于打响翻译、语音识别等方面的品牌。

实际上,搜狗目前已经在输入法、搜索和其他App产品中上线了上述AI能力,但还没有"明显"对外推出。

王小川的想法是,找到了这些AI技术的应用场景,再通过硬件,让用户更了解软件进展,等到手机等交互终端也ready的时候,就能直接"上车",这是一个品牌提前卡位的举措。

更直接来说,翻译和语音识别等,会成为搜狗在搜索、输入法和浏览器之后的新招牌。

不能小觑的是,翻译和语音识别可能也会是搜索格局变化的新变量。

在本次财报发布中,搜狗再次强调了自己在中国搜索市场的第二名地位。移动市场份额占比17.8%。

而且可以肯定的是,这与搜狗在差异化搜索方面的思路密切相关,目前搜狗享有微信公众号和知乎等方面的差异化内容,还在法律和医疗等"新兴"市场中开拓,力图在百度战斗力薄弱的地方进一步抢份额。

于是再借助翻译,用户则可以或许更多非中文领域的内容和搜索结果,亦是差异化搜索的补充。

最后,竞争和搜狗发展之外,大力搞翻译,还承载了王小川的个人新追求。

王小川说,AI变革让翻译变得更简单易用,如果能把翻译解决好,重要性不输于电的发明。

因为会推动人类文明的交流和进步。

在国外,阿拉伯帝国在8世纪到10世纪有过百年翻译运动,国家自上而下主导了古希腊罗马经典的翻译,促成了阿拉伯世界后续500多年的黄金发展期。

而在中国历史上,每一波翻译热潮,都带来了社会文明的进步。

最早可以从唐僧——玄奘说起,他去印度求经, 17年后回国带回佛经657部,还主持了更大规模的译场,用19年时间译经75部1335卷。此外,他还把老子著作的一部分译成梵语。不仅改变了中国文明的后续进程,还推动了两种文化交融交汇。

其后,明末清初又掀起了一次科技翻译的高潮,来华传教士与中国的知识份子共有译著400多种,其中关于科技的130种左右。这些译著使国人了解到西学的一些先进成果,并在社会上产生了一定的影响。为后来中国的工业文明奠定了基础,《几何原本》等就是在那时来到中国的。

第三波是鸦片战争后至"五四运动"前,大量文学作品的翻译,成为中国思想解放的先导,其中后来影响最深远的,莫过于《共产党宣言》。

第四波则是改革开放以来,社科、科技、军事、外交、贸易、法律、文教、卫生等领域都有经典译作出现,但单凭人力的努力,已经很难满足国人更多的诉求了。

于是现在,王小川认为是时候了。

如果通过AI、运用技术,可以实现生产力的根本提升,那"舍我其谁"?

这位以清华学霸知名的创业者说,技术的情怀在于让世界更好,如今有这样的机遇摆在面前,而且有落地应用的场景,可以打造一座融合全球文明的"通天塔",何乐而不为?

王小川也反问:我们中国人在学习英语上花的时间还不够多吗?完全可以做更多高效有意义的事情。

所以王小川愿意把第五次翻译热潮的使命揽在自己肩上,但不靠他一人一力,而是AI。

没错,这是一个AI时代的王·玄奘·小川。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2AsZVAk
RSS Feed

RSS5

IFTTT

机器人终于有触觉了!甚至可以实现膝跳反射丨Science

伊瓢 发自 凹非寺 量子位 报道 | 公众号 QbitAI

"大侄子呀,在学校读啥呢?"

"在搞深度神经网络之类的……"

"呀,学医了呀,真有出息!"

"……"-_-||

虽然我们平常说的深度神经网络跟长在动物身体里的神经没有半毛钱关系,但是已经有科学家已经搞出了"真·人工神经网络"——有触觉,能触发反应的那一种。

原理:将晶体管基于实际的人类突触

这个"人工神经网络"其实是个人工感觉神经系统,研究者来自于斯坦福大学和首尔国立大学,该成果被发表在了Science上。

人工感觉神经系统由三个元件组成,分别是斯坦福实验室的触摸传感器,能够识别最轻微的压力;还有电子神经元;以及来自首尔国立大学、论文作者之一Tae-Woo Lee开发的人工突触晶体管

突触,这个词大家都不陌生,中学生物课本介绍神经系统时,就告诉了我们神经元突触可以用来 传递信号、存储信息、做出简单决定,比如膝跳反射这种非条件反射,就依赖于突触的作用。而这个人工突触晶体管就像个突触一样,可以执行类似的功能。

可以检测压力

这个人工感觉神经系统可以非常敏锐的检测压力。

为了证明这一点,研究者们找来了一根蟑螂腿,把人工感觉神经系统附着在了蟑螂腿上。

首先,研究者们给神经系统中的触摸传感器施加压力,此时,传感器的压力信号到达电子神经元,电子神经元将信号转换为数字信号,传递到突触晶体管。

之后,突触晶体管根据传感器上的压力大小促,使蟑螂腿抽搐。

后续的实验证明,该人造神经系统可以检测不同的压力触感,为无生命的东西创造了"触觉"。此外,这个人造神经网络还可以感受并区分盲文字母,而当圆柱体在传感器上面滚动时,还可以识别物体的行进方向。

幻肢一痛可成真

给无生命的物质创造了触觉,我们就可以应用在各种机器人上,给机器人造出仿真的皮肤,让它们能更真实的"感受"世界,或许还能节省下不少传感器的钱。

而除此之外,人工感觉神经网络也能帮助那些截肢的残疾人,给假肢加上皮肤,进而帮助截肢残疾人恢复触觉。

传送门

A bioinspired flexible organic artificial afferent nerve作者:Yeongin Kim, Alex Chortos, Wentao Xu, Yuxin Liu, Jin Young Oh, Donghee Son, Jiheong Kang, Amir M. Foudeh, Chenxin Zhu, Yeongjun Lee, Simiao Niu, Jia Liu, Raphael Pfattner, Zhenan Bao, Tae-Woo Leehttp://science.sciencemag.org/content/360/6392/998

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2OvSawE
RSS Feed

RSS5

IFTTT

机器人终于有触觉了!甚至可以实现膝跳反射丨Science

伊瓢 发自 凹非寺 量子位 报道 | 公众号 QbitAI

"大侄子呀,在学校读啥呢?"

"在搞深度神经网络之类的……"

"呀,学医了呀,真有出息!"

"……"-_-||

虽然我们平常说的深度神经网络跟长在动物身体里的神经没有半毛钱关系,但是已经有科学家已经搞出了"真·人工神经网络"——有触觉,能触发反应的那一种。

原理:将晶体管基于实际的人类突触

这个"人工神经网络"其实是个人工感觉神经系统,研究者来自于斯坦福大学和首尔国立大学,该成果被发表在了Science上。

人工感觉神经系统由三个元件组成,分别是斯坦福实验室的触摸传感器,能够识别最轻微的压力;还有电子神经元;以及来自首尔国立大学、论文作者之一Tae-Woo Lee开发的人工突触晶体管

突触,这个词大家都不陌生,中学生物课本介绍神经系统时,就告诉了我们神经元突触可以用来 传递信号、存储信息、做出简单决定,比如膝跳反射这种非条件反射,就依赖于突触的作用。而这个人工突触晶体管就像个突触一样,可以执行类似的功能。

可以检测压力

这个人工感觉神经系统可以非常敏锐的检测压力。

为了证明这一点,研究者们找来了一根蟑螂腿,把人工感觉神经系统附着在了蟑螂腿上。

首先,研究者们给神经系统中的触摸传感器施加压力,此时,传感器的压力信号到达电子神经元,电子神经元将信号转换为数字信号,传递到突触晶体管。

之后,突触晶体管根据传感器上的压力大小促,使蟑螂腿抽搐。

后续的实验证明,该人造神经系统可以检测不同的压力触感,为无生命的东西创造了"触觉"。此外,这个人造神经网络还可以感受并区分盲文字母,而当圆柱体在传感器上面滚动时,还可以识别物体的行进方向。

幻肢一痛可成真

给无生命的物质创造了触觉,我们就可以应用在各种机器人上,给机器人造出仿真的皮肤,让它们能更真实的"感受"世界,或许还能节省下不少传感器的钱。

而除此之外,人工感觉神经网络也能帮助那些截肢的残疾人,给假肢加上皮肤,进而帮助截肢残疾人恢复触觉。

传送门

A bioinspired flexible organic artificial afferent nerve作者:Yeongin Kim, Alex Chortos, Wentao Xu, Yuxin Liu, Jin Young Oh, Donghee Son, Jiheong Kang, Amir M. Foudeh, Chenxin Zhu, Yeongjun Lee, Simiao Niu, Jia Liu, Raphael Pfattner, Zhenan Bao, Tae-Woo Leehttp://science.sciencemag.org/content/360/6392/998

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2OvSawE
RSS Feed

RSS5

IFTTT

搜狗营收创新高,股价却跌7%,对话王·玄奘·小川

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

这就令人看不明白了。

昨天(7月30日),搜狗交出了截至2018年6月30日的第二财季成绩单,总营收3.014亿美元,比去年同期增长43%,净利润3820万美元,比去年同期增长58%。

搜狗营收示意

这是一个什么概念呢?

搜狗自创立以来,就没有单季度赚过如此多的钱,而且历史上首次营收迈入3亿美元大关——开始奔"4"。

结果上来说,该是一个满心欢喜的成绩单才对。

然而大跌眼镜的是,财报发布后,搜狗股价不涨反跌,最高跌幅超过10%,最后收盘于9.55美元,整体跌幅达7.55%

搜狗股价走势

这就好比考了个历史好成绩回家,却还挨了一顿胖揍。

资本市场波云诡谲,玄机深深深几许。

搜狐拖后腿

但搜狗这顿打,也并非全无原因。

首先,受自己亲爹搜狐不给力拖累。

搜狐昨天也发布了上一季度财报,总营收4.86亿美元,相比去年同期增长5%,净利润亏损4900万美元,比去年同期相比有所收窄,但亏损幅度之大,一个搜狗净赚的钱,都不够填补了。

更何况搜狐这份财报,比华尔街分析师们预计的还要差。

原本根据雅虎财经汇总的数据,华尔街4位分析师平均预计,搜狐第二季度总营收将达5.022亿美元。但财报显示,搜狐第二季度总营收为4.86亿美元,不及分析师预期。

所以搜狐财报一发,股价盘中一度大跌逾20%,最后收盘于26.45美元,整体跌幅达13.364%。

作为中国互联网的老大哥,遭遇这样的境况,也难免令人一声叹息。

好在有落有起,张朝阳在财报媒体会上也透露了,这只是搜狐复兴的第一步,也在进行视频等核心业务方面的转型探索,并且明年就有望盈利了。

另外,搜狗也不是全无自身原因,同样成绩不及华尔街分析师预期。

根据雅虎财经汇总的数据,此前5位分析师平均预计,搜狗第二季度总营收将达3.0455亿美元。

但最终财报显示,搜狗第二季度总营收为3.014亿美元,不及分析师预期。

加之最近大盘整体情况也不好,道琼斯指数昨天下跌了0.57%。

所以搜狗算是好业绩没遇上好天气。

流量和广告监管

但是否能短期出晴,要看华尔街资本家们认不认可搜狗短期的目标了。

依然在财报发布后,搜狗CEO王小川和CFO周毅,回答了分析师们集中关切的问题。

其实最核心的就3个。

一是广告监管事件。就在前段时间,由于抖音在搜狗搜索引擎上投放侮辱英烈的推广广告,抖音和搜狗都遭遇监管,被中止开展广告业务,目前也没有重启风声。

于是营收上不可能不受影响。

但搜狗CFO周毅的说法是,抖音事件的影响确实会体现在第三季度,但对财务的影响是一次性的,搜狗已经采取了补救措施,营收增长在第四季度就会恢复到正常水平。

另外,在该事件后,搜狗也建立了团队,并且在广告投放监管机制上使用了AI,相信也能进一步提升运营水平。

第二个分析师关键词是流量。而且最为关切的是,搜狗目前的流量中,来自腾讯和OEM(手机预装)等渠道的流量。

周毅的回答是,在第二季度流量构成中,有25%属于原生性流量,37%来自腾讯,还有38%来自OEM渠道。

并且得益于搜狗采取的一系列举措,预计到今年年底原生性流量的占比将从现在的25%上升至27%-28%,来自腾讯的流量贡献将保持不变。

加之竞争加剧,来自OEM渠道的流量占比将下滑1%-2%,也就是说,到今年年底将从38%下降至37%-36%。

实际上,从搜狗CFO回答中,侧面也能看出OEM渠道流量贡献力的进一步降低,性价比也将进一步减弱。

最后一个关心的方面是输入法和智能硬件

关于搜狗输入法,核心问题是如何商业化以及何时商业化。

按照王小川的回答,输入法的变现的核心思路是与搜索结合,然后运用AI等技术,探索到用户的搜索意图,引导用户产生更直接的搜索行为。

具体产品方面,搜狗CEO透露,新版产品的测试已在本季度上线,预计会在第四季度对收入产生比较明显的影响。

至于智能硬件方面,王小川表示年内还会推4款产品出来,并且到明年能产生百万级的销量。

此前,搜狗已经对外推出了主打翻译的搜狗旅行翻译宝,以及主打速记的搜狗速记翻译笔。

王小川认为,互联网起家的搜狗"大举"进军硬件,核心还是将搜狗的AI和语音搜索整合其中,并且带来差异化的核心竞争力。

实际上,这一系列的硬件,还承载着王小川最新的人生目标。

王·玄奘·小川

可能你也奇怪了,上市以后的搜狗,为啥在缺乏"基因"的硬件领域频频下注?

在近期,量子位围绕该话题也跟王小川有过专门对话,或许能解答你部分疑问。

首先,之所以亲自下水做硬件,是因为"舍我其谁"了。

搜狗以软件互联网起家,拿手擅长的也是互联网产品,但无论是翻译,还是速记,目前在AI加持下,都已经有了质的飞跃,都可以更便捷地进入寻常百姓家。

然而目前最核心的移动智能硬件——手机,在硬件如麦克风阵列,在计算单元方面,都还无法满足直接搭载相同效果软件的诉求。

于是为了更好打磨软件,也为了更好从硬件反馈,搜狗开始软硬件一体化尝试,而且是软件定义硬件的方式向前发展,如果找硬件合作方,从设计到迭代,可能都不会由自己完全掌控顺遂。

其次,硬件担纲的是搜狗AI的新品牌。

王小川说,通过硬件产品,让用户能更直接了解搜狗目前的AI能力和AI应用,利于打响翻译、语音识别等方面的品牌。

实际上,搜狗目前已经在输入法、搜索和其他App产品中上线了上述AI能力,但还没有"明显"对外推出。

王小川的想法是,找到了这些AI技术的应用场景,再通过硬件,让用户更了解软件进展,等到手机等交互终端也ready的时候,就能直接"上车",这是一个品牌提前卡位的举措。

更直接来说,翻译和语音识别等,会成为搜狗在搜索、输入法和浏览器之后的新招牌。

不能小觑的是,翻译和语音识别可能也会是搜索格局变化的新变量。

在本次财报发布中,搜狗再次强调了自己在中国搜索市场的第二名地位。移动市场份额占比17.8%。

而且可以肯定的是,这与搜狗在差异化搜索方面的思路密切相关,目前搜狗享有微信公众号和知乎等方面的差异化内容,还在法律和医疗等"新兴"市场中开拓,力图在百度战斗力薄弱的地方进一步抢份额。

于是再借助翻译,用户则可以或许更多非中文领域的内容和搜索结果,亦是差异化搜索的补充。

最后,竞争和搜狗发展之外,大力搞翻译,还承载了王小川的个人新追求。

王小川说,AI变革让翻译变得更简单易用,如果能把翻译解决好,重要性不输于电的发明。

因为会推动人类文明的交流和进步。

在国外,阿拉伯帝国在8世纪到10世纪有过百年翻译运动,国家自上而下主导了古希腊罗马经典的翻译,促成了阿拉伯世界后续500多年的黄金发展期。

而在中国历史上,每一波翻译热潮,都带来了社会文明的进步。

最早可以从唐僧——玄奘说起,他去印度求经, 17年后回国带回佛经657部,还主持了更大规模的译场,用19年时间译经75部1335卷。此外,他还把老子著作的一部分译成梵语。不仅改变了中国文明的后续进程,还推动了两种文化交融交汇。

其后,明末清初又掀起了一次科技翻译的高潮,来华传教士与中国的知识份子共有译著400多种,其中关于科技的130种左右。这些译著使国人了解到西学的一些先进成果,并在社会上产生了一定的影响。为后来中国的工业文明奠定了基础,《几何原本》等就是在那时来到中国的。

第三波是鸦片战争后至"五四运动"前,大量文学作品的翻译,成为中国思想解放的先导,其中后来影响最深远的,莫过于《共产党宣言》。

第四波则是改革开放以来,社科、科技、军事、外交、贸易、法律、文教、卫生等领域都有经典译作出现,但单凭人力的努力,已经很难满足国人更多的诉求了。

于是现在,王小川认为是时候了。

如果通过AI、运用技术,可以实现生产力的根本提升,那"舍我其谁"?

这位以清华学霸知名的创业者说,技术的情怀在于让世界更好,如今有这样的机遇摆在面前,而且有落地应用的场景,可以打造一座融合全球文明的"通天塔",何乐而不为?

王小川也反问:我们中国人在学习英语上花的时间还不够多吗?完全可以做更多高效有意义的事情。

所以王小川愿意把第五次翻译热潮的使命揽在自己肩上,但不靠他一人一力,而是AI。

没错,这是一个AI时代的王·玄奘·小川。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2AsZVAk
RSS Feed

RSS5

IFTTT

从虚拟世界伸到现实的机械臂,靠摄像机就能玩转任何物体

OpenAI 训练了一个机械臂,能够非常灵巧地控制物体。据介绍,该系统名为 Dactyl,经过了完全模拟训练,能够把知识迁移到现实中,即使用 OpenAI 一直以来研究的技术把训练得到的知识应用到真实物理环境中。Dactyl 使用了 OpenAI 在 Dota2 系统 中使用的同一通用强化学习算法与代码。结果显示,没有对物理世界准确建模的情况下,在模拟环境中训练智能体并用它解决现实任务是可以做到的。

论文链接:https://d4mucfpksywv.cloudfront.net/research-covers/learning-dexterity/learning-dexterity-paper.pdf

任务

Dactyl 是一个使用机械臂操控物体的系统。我们把一个方块或棱柱放在其手掌,然后要求 Dactyl 重置该物品的方向。例如,旋转方块,使其另外一面朝上。网络仅观察指尖坐标和三个常规 RGB 摄像头中的影像即可。

尽管几十年前人们就开发了首个机械臂,但长期以来,利用它们有效地操控物体一直是机械臂控制领域的一大难题。与其他问题(如移动)不同,使用传统机械臂技术实现灵活操控一直进展缓慢,而利用现有技术也很难操控现实世界中的物体。

用机械臂改变物体方向需要解决以下问题:

  • 在现实世界操作。虽然强化学习在很多模拟测试和视频游戏中都取得了成功,但它在现实世界中表现平平。我们在一个机械臂上测试了 Dactyl 系统。

  • 高维控制。与传统拥有 7 个自由度的机械臂相比,Dactyl 的机械臂有 24 个自由度。

  • 噪声和局部观察。Dactyl 要在现实世界中操作,因此必须解决噪声和传感器读数延迟问题。当指尖传感器被其它手指或物体遮挡时,Dactyl 只能收到局部信息。此外,许多物理方面的问题(如摩擦和滑移)无法被直接观察到,必须要对其进行推断。

  • 操控多个物体。Dactyl 要设计得非常灵活才能操控多个物体。这意味着我们不能使用仅针对特定几何对象的策略。

方法

Dactyl 学习完全在模拟中解决目标再定向任务,而无需任何人工输入。在完成训练阶段后,学习的策略可以在不需要任何微调的情况下迁移到机械臂。

Dactyl 实现 50 次连续旋转测试最大值。

机械操作的学习方法身处一个两难境地。模拟的机械臂可以很轻松的提供足够的数据来训练复杂的策略,但大多数的操作问题不能实现精确建模,这些策略进而也不能应用到真实机械臂上。即使是对两物体触碰后的变化进行建模——这是操作中最基础的问题——也是一个活跃研究领域,目前仍未有被广泛认可的解决方案。直接在物理机械臂上进行训练可以让策略在现实世界的物理中学习,但今天的算法需要多年的经验来解决像物体再定向这样的问题。

我们的方法是域随机化(domain randomization),这种方法通过在模拟场景中学习而不是尽量现实化,且模拟场景通过设计提供了各式各样的经验。这给了我们最好的方法:通过在模拟中学习,我们可以通过扩展来收集更多的经验,通过不强调现实意义,我们可以解决模拟器只能近似模拟的问题。

OpenAI 和一些其他组织也表示,域随机化可以处理越来越复杂的问题——域随机化甚至还用来训练 OpenAI Five。现在,我们想要看扩展域随机化是否能够解决当前机械臂技术中无法解决的问题。

我们通过使用 MuJoCo 物理引擎构建了机械臂系统的模拟版本。这个模拟仅仅是真实机械臂的粗略近似:

  • 测量诸如摩擦力、阻尼和滚动阻力等物理属性是很困难的。随着机械臂的使用磨损,它们也会随之改变。

  • MuJoCo 是一个刚体模拟器,也就是说它不能模拟手部姿势或肌腱的拉伸。

  • 我们的机械臂只能通过反复接触来操纵物体,然而接触力很难被精确模拟出来。

通过校准参数来匹配机械臂行为能使仿真更加逼真。但在目前的模拟器中,许多这样的效果没办法被精确建模。

相反,我们在分布式模拟环境中训练策略,其中物理和视觉属性是随机选择的。随机值是表示物理系统不确定性的自然方式,也能防止对单个模拟环境的过拟合。如果训练出的策略能够完成所有模拟环境的任务,它就很有可能完成真实世界的任务。

学习如何控制

通过构建支持迁移的模拟,我们减少了在实际场景中控制机械臂完成模拟任务的问题,该问题非常适合使用强化学习进行求解。虽然通过模拟的手臂操作一个物体已经非常困难了,但是在所有随机物理参数组合下学习如何操作物体要更难。

为了泛化到不同的环境,如果相同的策略能在不同的动力学环境中执行不同的动作,那无疑会非常有用。但是大多数动力学参数(dynamics parameter)并不能从单个观察样本中直接推断出,因此我们使用一种带记忆的神经网络 LSTM,这种记忆机制使得网络能学习动力学环境。LSTM 相比于不带记忆的策略大约实现了两倍的旋转。

Dactyl 使用 Rapid 进行学习,Rapid 是近端策略优化的大规模实现,它允许 OpenAI Five 解决 Dota 2 任务。我们使用了与 OpenAI Five 不同的模型架构、环境和超参数,但还是使用了相同的算法和训练代码。Rapid 使用 6144 个 CPU 核心与 8 张 GPU 来训练我们的策略,且智能体在 50 个小时内大约获得了 100 年的经验。

对于开发与测试,我们针对具有嵌入式运动追踪传感器的物体验证了控制策略,其中该传感器能分离控制与视觉网络的性能。

学习如何观察

Dactyl 旨在能操作任意目标,而不仅仅是那些经过特殊处理以支持追踪的目标。因此,Dactyl 使用常规的 RGB 摄像图来估计目标的位置与反向。

我们使用卷积神经网络训练一个姿态估计器,该神经网络能从位于机械臂周围的三个摄像头获取视频流输入,并输出估计的目标位置与方向。此外,使用三个摄像头能有效解决图像模糊和遮挡等问题。我们再次使用领域随机化训练该网络,并在 Unity 游戏开发平台上进行模拟,该平台相比于 Mujoco 可以建模更广泛的视觉现象。

控制网络能在给定姿态估计的情况下再调整目标,而视觉网络能将从摄像头获取的图像映射到目标的姿态。通过结合这两个独立的网络,Dactyl 能在观察到目标后就对它做一些操作。

用于学习评估方块姿态的训练图像样本。

结果

出现的行为

当部署了我们的系统时,我们注意到 Dactyl 使用了丰富的「掌中灵巧操控策略」(in-hand dexterous manipulation strategies)集合来求解任务。这些策略也被人类所常用。然而,我们并没有明确地教过他们这些策略;所有的行为都是自动发现的。

由Dactyl自动学习到的灵巧操控行为示例。

Dactyl 抓握类型(根据 GRASP taxonomy)。从左上到右下:指尖捏、掌捏、三指抓取、四指抓取、强力抓握和五指精确抓握。

我们观察到对于精确抓握,例如指尖捏,Dactyl 使用拇指和小指。人类更倾向于使用拇指以及食指或中指。然而,由于额外的自由度,机械臂的小指更加灵活,这也许解释了 Dactyl 为什么更钟爱用小指。这意味着 Dactyl 可以重新发现人类的抓握行为,但能将其进行调整以更好地适应其自身的极限和能力。

迁移能力

我们测试了 Dactyl 在丢掉它掌中物体之前可以实现多少次旋转,是超时,还是能成功实现 50 次旋转。在模拟环境训练的策略使机械臂能成功地在真实世界种成功地操控物体。

Dactyl 实验设置,包含机械臂、相空间运动追踪摄像机和 Basler RGB 摄像机。

对于方块操控任务,结合随机化的训练策略相比没有使用随机化的训练策略可以实现更多的旋转次数,如下所示。此外,使用结合视觉姿态估计的控制网络可以实现与直接从运动追踪传感器读取姿态相近的性能。

学习进展

大部分的训练时间都被用来使策略对不同的物理动态更加鲁棒。在模拟环境中不使用随机化来学习旋转物体需要大约 3 年的模拟经验,而在完全随机化的模拟环境中实现相似性能需要大约 100 年的模拟经验。

有和没有随机化过程的模拟经验(年)对应的学习进展。

惊喜之处

  • 操纵现实世界中的物体不需要触觉感知。我们的机械臂仅接收五个指尖的位置及方块的位置和方向信息。尽管机械的指尖有触觉传感器,我们也不需要。总的来说,我们不需要一套具有难以建模的值的丰富传感器,利用一套有限的传感器就能提升机械臂的表现,这些传感器可以在模拟器中有效建模。

  • 为一个对象开发的随机化泛化到具有类似属性的其它对象。在为操纵方块问题开发了一个系统之后,我们打印了一个八棱柱并使用它训练了一套新的规则,然后试图操纵该棱柱。令我们惊喜的是,机械臂仅利用为方块设计的随机化就表现出了优异的性能。然而,操纵球体的规则在一系列测试中仅能成功几次,或许是因为我们没有随机化任何建模滚动行为的模拟参数

  • 在物理机械臂中,良好的系统工程与好的算法一样重要。某次,我们注意到,在运行同样的规则时,一个工程师的表现总是优于其他工程师。之后,我们发现他的笔记本电脑比其他人的快,而他的电脑隐藏了一个影响表现的计时 bug。bug 修复之后,相对地团队中其他人电脑上的表现就提了上去。

不足之处

我们还惊讶地发现有几项常用的技术并没有提升我们的结果。

  • 减少反应时间并不能提升性能。传统观点认为减少动作间隙的时间应该能提升性能,因为状态之间的变化将变得更小,因此更容易预测。我们当前使用的动作间隙时间是 80ms,小于人类反应时间(150-250ms),但显著高于神经网络的计算时间(大约 25ms)。令人惊讶的是,虽然增加额外的训练时间可以将动作间隙时间减少到 40ms,但在现实世界的任务中并没有显著提升性能。有可能这个经验法则并不适用于神经网络,而更适用于如今常用的线性模型。

  • 使用真实数据来训练视觉策略并没有什么效果。在早期实验中,我们使用了模拟数据和真实数据的组合来提升模型性能。真实数据可以通过目标结合嵌入式跟踪标识器的试验来获取。然而,真实数据相比模拟数据有很大的缺点。跟踪标识器的位置信息具有延迟和测量误差。更糟的是,真实数据很容易因为常见的配置变化而失效,使其很难收集足够的有用数据。随着方法的不断发展,我们的「仅模拟」误差一直在增加,直到与使用模拟-真实混合数据的误差相匹配。我们最终的视觉模型没有使用真实数据来训练。


原文链接:https://blog.openai.com/learning-dexterity/

]]> 原文: https://ift.tt/2mWwzAJ
RSS Feed

机器知心

IFTTT

入职仅一年,套现5000多万后背刺马斯克搬走 Grok 核心代码库!-InfoQ 每周精要894期

「每周精要」 NO. 894 2025/09/06 头条 HEADLINE 入职仅一年,套现 5000 多万搬走 Grok 核心代码库! 业内专家:拥有菜谱不等于能做出同样的菜 精选 SELECTED AI 公司创始人现跑路迪拜! 80% 收入烧广告、假账骗投资人,微...