2018年5月2日星期三

F8大动作:PyTorch 1.0现身(Logo也换了),围棋AI开源

夏乙 若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

F8开发者大会第二天,Facebook亮出了一系列AI大动作。

Caffe2和PyTorch合体事件有了清晰的发展方向,同样服务于深度学习开发者的ONNX也宣布支持更多的框架。

另外,Facebook开源了视频理解、自然语言处理的模型,开源了围棋AI ELF OpenGo,还展示了一个打星际的AI。

PyTorch

v0.4.0正式版发布没几天,Facebook在F8开发者大会第二天宣布将发布PyTorch 1.0,还提前展示了这款新框架的特性。

这个框架,还换了LOGO:

深度学习框架Caffe2的作者 @贾扬清 ,在知乎上将这一版本的发布总结为Caffe2 + PyTorch = PyTorch 1.0。

也就是将原本两款框架面向研究的和面向生产的特性结合了起来。

Facebook介绍说,PyTorch 1.0结合了Caffe2和ONNX模块化、面向生产的特性,和PyTorch自身灵活、面向研究的特性结合起来,为广泛的AI项目提供了一个从科研原型到生产部署的快速、无缝途径,让用户可以快速实验,通过一个能在强制执行模式和声明执行模式之间无缝切花的混合前端优化性能。

除了将研究和生产特性结合起来,PyTorch 1.0还将ONNX(开放神经网络交换)包含进来。ONNX是Facebook去年联合多家软硬件公司发布的神经网络模型转换协议,现在,它新增了对苹果的Core ML、百度PaddlePaddle、高通SNPE的支持,再加上原本支持的MXNet、Caffe2、PyTorch、TensorFlow、CNTK等框架,实现了神经网络模型在各种主流框架之间的转换。

PyTorch 1.0 beta版将在今年夏天和用户见面。

不过,Facebook内部已经用上了。官方称,Facebook多款产品和服务都在大规模应用这个新框架,它每天要处理60亿次文本翻译任务。

PyTorch最初亮相于1年多以前,Facebook的另一款深度学习框架Caffe2,则在去年的F8大会上正式发布。

不过今年4月,Caffe2已经宣布全部代码并入PyTorch。接下来的几个月里,两款框架原本的组件将深度结合,成为一个单独的软件包。

就在上周,PyTorch发布了v0.4.0版本,将Tensors(张量)和Variables(变量)合并,新增了零维张量,还开始了对Windows系统的官方支持。

展示PyTorch 1.0的同时,Facebook还开源了一部分研究成果。比如用于视频理解的ResNext3D模型将于6月发布,视频行为识别模型Res 2+1今天就已经开源,PyTorch中的自然语言理解库Translate也将开源。

发布了这么多资源和工具,去哪找呢?Facebook还为旗下所有的AI资源推出了一个网站:

https://ift.tt/2rgLGH0

围棋AI开源下载

在F8大会上,还开源了一个围棋AI:ELF OpenGo。

这个AI是Facebook团队对DeepMind技术的一个重现,最近他们选择与四名排名世界前30的人类高手对战,取得了14-0的胜利。

和AlphaGo一样,这个AI的重点也并不只是下围棋,而是想要更好的解决问题。现在ELF OpenGo已经可以开源下载。

对此, @田渊栋 在知乎上有更详细的解答

我们最近改进了ELF框架,并且在上面实现了DeepMind的AlphaGoZero及AlphaZero的算法。用两千块GPU训练约两到三周后得到的围棋AI,基本上超过了强职业的水平。我们和韩国棋院合作进行了一次测试,给这个AI单卡每步50秒搜索时间(每步搜索8万个局面),给人类棋手任意长时间思考,结果AI以14比0完胜。参与测试的棋手包括金志锡,申真谞,朴永训及崔哲瀚,在这里我们非常感谢他们的合作,大家都很尽力,一些棋局下了三四个小时极其精彩。应棋手们的要求,这14局棋谱中的12局不久将公开。另外我们也和现在著名的LeelaZero比较了下。我们采用了LeelaZero除ponder外的缺省配置(约一分钟一步),及4月25日的公开权重(192x15, 158603eb),结果我们的AI以200比0获胜。在此我们非常感谢Leela团队的工作,对于他们的开源精神,我们表示由衷的敬意。这次我们将训练代码,测试代码及训练出来的模型(224x20)全部公开,首要目的是贯彻我们一直以来坚持的开源方针,让AI为全世界服务。其次是对于AlphaGoZero及AlphaZero这样非常优秀的算法,我们想要提供一个可重复的参考实现,让全球的研究者们能在这上面继续改进,充分发挥自己的创造力。最后是借此机会推广一下我们的ELF平台和PyTorch深度学习框架,希望更多的人能使用和完善它。感谢大家的支持!田渊栋,龚渠成&马子嫯(Jerry Ma), Shubho Sengupta, 陈卓远,Larry Zitnick

ELF OpenGo代码及模型的地址:

https://ift.tt/2FCZ9hw

其他

在F8大会上,还展示了一个可以打《星际争霸》的AI,Facebook也计划随后开源这一项目。星际争霸和围棋一直也都是Facebook团队研究的方向。

还有一项突破研究。基于35亿张用户已打标签(17000个)的公开图像,Facebook成功训练了一个图像识别系统,这比之前只能用手动打标签的5000万张图片训练相比,提高了系统的识别能力,在ImageNet上获得了创纪录的高分(准确率85.4%)。

更多信息,可以参考这个页面:

https://ift.tt/2FD5J7E

此外,F8大会上还展示了AR和VR方面的进步。

Facebook已经创建了一个原型系统,可以生成效果惊人的三围重建画面。下面这个视频,展示了正常的视频与3D重建画面的比较,几乎难以分辨左右哪个画面为真。(友情提示:左边露出操作员脚部的是真实世界)

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2KyrxoH
RSS Feed

RSS5

IFTTT

F8大动作:PyTorch 1.0现身(Logo也换了),围棋AI开源

夏乙 若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

F8开发者大会第二天,Facebook亮出了一系列AI大动作。

Caffe2和PyTorch合体事件有了清晰的发展方向,同样服务于深度学习开发者的ONNX也宣布支持更多的框架。

另外,Facebook开源了视频理解、自然语言处理的模型,开源了围棋AI ELF OpenGo,还展示了一个打星际的AI。

PyTorch

v0.4.0正式版发布没几天,Facebook在F8开发者大会第二天宣布将发布PyTorch 1.0,还提前展示了这款新框架的特性。

这个框架,还换了LOGO:

深度学习框架Caffe2的作者 @贾扬清 ,在知乎上将这一版本的发布总结为Caffe2 + PyTorch = PyTorch 1.0。

也就是将原本两款框架面向研究的和面向生产的特性结合了起来。

Facebook介绍说,PyTorch 1.0结合了Caffe2和ONNX模块化、面向生产的特性,和PyTorch自身灵活、面向研究的特性结合起来,为广泛的AI项目提供了一个从科研原型到生产部署的快速、无缝途径,让用户可以快速实验,通过一个能在强制执行模式和声明执行模式之间无缝切花的混合前端优化性能。

除了将研究和生产特性结合起来,PyTorch 1.0还将ONNX(开放神经网络交换)包含进来。ONNX是Facebook去年联合多家软硬件公司发布的神经网络模型转换协议,现在,它新增了对苹果的Core ML、百度PaddlePaddle、高通SNPE的支持,再加上原本支持的MXNet、Caffe2、PyTorch、TensorFlow、CNTK等框架,实现了神经网络模型在各种主流框架之间的转换。

PyTorch 1.0 beta版将在今年夏天和用户见面。

不过,Facebook内部已经用上了。官方称,Facebook多款产品和服务都在大规模应用这个新框架,它每天要处理60亿次文本翻译任务。

PyTorch最初亮相于1年多以前,Facebook的另一款深度学习框架Caffe2,则在去年的F8大会上正式发布。

不过今年4月,Caffe2已经宣布全部代码并入PyTorch。接下来的几个月里,两款框架原本的组件将深度结合,成为一个单独的软件包。

就在上周,PyTorch发布了v0.4.0版本,将Tensors(张量)和Variables(变量)合并,新增了零维张量,还开始了对Windows系统的官方支持。

展示PyTorch 1.0的同时,Facebook还开源了一部分研究成果。比如用于视频理解的ResNext3D模型将于6月发布,视频行为识别模型Res 2+1今天就已经开源,PyTorch中的自然语言理解库Translate也将开源。

发布了这么多资源和工具,去哪找呢?Facebook还为旗下所有的AI资源推出了一个网站:

https://ift.tt/2rgLGH0

围棋AI开源下载

在F8大会上,还开源了一个围棋AI:ELF OpenGo。

这个AI是Facebook团队对DeepMind技术的一个重现,最近他们选择与四名排名世界前30的人类高手对战,取得了14-0的胜利。

和AlphaGo一样,这个AI的重点也并不只是下围棋,而是想要更好的解决问题。现在ELF OpenGo已经可以开源下载。

对此, @田渊栋 在知乎上有更详细的解答

我们最近改进了ELF框架,并且在上面实现了DeepMind的AlphaGoZero及AlphaZero的算法。用两千块GPU训练约两到三周后得到的围棋AI,基本上超过了强职业的水平。我们和韩国棋院合作进行了一次测试,给这个AI单卡每步50秒搜索时间(每步搜索8万个局面),给人类棋手任意长时间思考,结果AI以14比0完胜。参与测试的棋手包括金志锡,申真谞,朴永训及崔哲瀚,在这里我们非常感谢他们的合作,大家都很尽力,一些棋局下了三四个小时极其精彩。应棋手们的要求,这14局棋谱中的12局不久将公开。另外我们也和现在著名的LeelaZero比较了下。我们采用了LeelaZero除ponder外的缺省配置(约一分钟一步),及4月25日的公开权重(192x15, 158603eb),结果我们的AI以200比0获胜。在此我们非常感谢Leela团队的工作,对于他们的开源精神,我们表示由衷的敬意。这次我们将训练代码,测试代码及训练出来的模型(224x20)全部公开,首要目的是贯彻我们一直以来坚持的开源方针,让AI为全世界服务。其次是对于AlphaGoZero及AlphaZero这样非常优秀的算法,我们想要提供一个可重复的参考实现,让全球的研究者们能在这上面继续改进,充分发挥自己的创造力。最后是借此机会推广一下我们的ELF平台和PyTorch深度学习框架,希望更多的人能使用和完善它。感谢大家的支持!田渊栋,龚渠成&马子嫯(Jerry Ma), Shubho Sengupta, 陈卓远,Larry Zitnick

ELF OpenGo代码及模型的地址:

https://ift.tt/2FCZ9hw

其他

在F8大会上,还展示了一个可以打《星际争霸》的AI,Facebook也计划随后开源这一项目。星际争霸和围棋一直也都是Facebook团队研究的方向。

还有一项突破研究。基于35亿张用户已打标签(17000个)的公开图像,Facebook成功训练了一个图像识别系统,这比之前只能用手动打标签的5000万张图片训练相比,提高了系统的识别能力,在ImageNet上获得了创纪录的高分(准确率85.4%)。

更多信息,可以参考这个页面:

https://ift.tt/2FD5J7E

此外,F8大会上还展示了AR和VR方面的进步。

Facebook已经创建了一个原型系统,可以生成效果惊人的三围重建画面。下面这个视频,展示了正常的视频与3D重建画面的比较,几乎难以分辨左右哪个画面为真。(友情提示:左边露出操作员脚部的是真实世界)

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2KyrxoH
RSS Feed

RSS5

IFTTT

从冰上运动切入,这家融合机器视觉的分析公司也想造就「点石成金」

这可能是新版《点石成金》。

除了双眉紧蹙、紧盯赛场的球队教练,这两年 NHL 冰球联盟赛的看台上又多一位了「暗中观察」的人工智能教练。

当教练呵斥某位运动员的射门失误时,AI 正用每秒 10 次的频率追踪该球员的数据指标,挖掘到他同时有着极高的助攻次数。

就像当年,资金拮据的奥克兰运动家棒球队运用赛伯计量学(Sabermetrics)创造了奇迹——其经理人比利 · 比恩综合上垒率衡量球员上垒的能力(OBP)、每一次打击可贡献的垒包数即长打率(SLG),来判筛选拥有攻击力和特项技能的棒球员,最终帮球队在 2002 年赢得 103 场比赛,创下了低投入高收益的记录。

这个故事使大数据分析受到极大关注,也一度激活了赛事市场的应用,比如一些精明的体育管理层开始雇佣大量统计学家,并使用数据模型来管理球队的薪资。

如今,从改变球员价值评估到优化球队成员结构,利用自动化赛事规则分析进而精准调整参赛策略,赛事模拟训练等……AI 已经开始帮助冰球、篮球等体育竞技领域实现在全局量化分析下做决定,赛事直播的营销推广和引流变得可控,在机器学习加持下的赛事游戏也越来越真实。

由此,体育科技的发展空间被逐年放大。根据 WinterGreen Research 的一份报告,2014 年体育科技市场的规模仅为 1.25 亿美元,而到 2021 年将达到 47 亿美元。ESPN 的数据专家约翰·霍林在 2012 年时就曾表示,职业篮球联盟里至少有 2/3 的球队已经在数据分析技术上进行投资。根据《纽约时报》在 2016 年报道,NBA 金州勇士队平均每场比赛都有 30.2 个三分球尝试,数据证明投三分球带来更高的得分率,而这也是目前球队侧重的打法。

不过,在三年前 Alex Martynov 决定创办 ICEBERG 时,数据分析在冰球等其他领域几乎没有开始应用。这家融合计算机视觉的人工智能分析公司,选择从冰球比赛切入,

「要知道冰球也是一项非常复杂的运动,运动员可以快速滑行,经常碰撞,每分钟更换一次,而且球非常小。技术上来讲,冰球是最难实时追踪的运动,因此降级开拓其它运动领域很容易。」Martynov 告诉我们。

AI 冰球教练来了

冰球运动速度快、变化非常复杂,球员站位和活动背后的数据很难捕捉,尤其是通过人来记录更是难上加难。

ICEBERG 要先通过计算机视觉技术解决数据收集的问题。

每场比赛开始前,ICEBERG 会在冰场周围安装三台 FLIR 热像仪用作纪录。这样做是因为广播馈送的直播通常会裁掉一半以上的场景。虽然 FLIR 录制的视频分辨较低,甚至不如 iPhone 录制的现场画面,却可以为人工智能算法提供所需要的恒定全景图。

神经网络会识别视频数据上冰面的所有移动实体,分别是按球衣颜色分成两组 12 名球员、冰上裁判和一个直径 7.62 厘米、速度高达 160 公里/小时的冰球。通过在 10,000 个数字变体的数据集上训练,ICEBERG 的计算机视觉算法还可以根据球衣号码识别每个球员。

当然,神经网络也有搞砸的时候,例如,模型曾经无法识别哈萨克斯坦白色球衣上的金色数字。Martynov 告诉我们,「还有一支瑞士球队曾经穿着印着黑色数字的黑色的球衣。」

录入的数据被分为球队、球员、门将等三个统计维度,而 ICEBERG 的算法一共追踪 500 种不同的指标。系统会将每位球员的坐标与冰球的坐标进行匹配,记录每个人的传球率、身体阻截次数、断球次数、丢球次数、助攻次数以及进球总数。

一般而言,60 分钟的比赛会产生大约 100 万个数据点。其中不乏非常细微的观察,例如某个门将的防守盲点。总体来说冰球的进球率是 7-9%,ICEBERG 的算法可以帮助教练发现潜在的预期进球(xG),后者参数设置通常是球员的射门位置、方式,以及进攻方式,而每一场别赛的分析都会一张 xG 的热图。通常来说,主办方对拍摄冰球比赛进行分析使用没有任何限制,不过去年国际冰球联合会禁止了 ICEBERG 在世界锦标赛上拍摄捷克队比赛,表示视频版权属于主办方 IIHF 所有,此外冬季奥运会的拍摄许可也是 Martynov 正在洽谈的事项之一。

有时人工智能会发现与比赛分数迥然不同的结果。在一场加拿大对战瑞士的比赛,AI 发现后者比前者多滑行了 1.7 公里,在大部分时段里离球更近 5-10 公分,有着更长的控球时间,并且有更高的预期进球率。按数据分析预测,瑞士队的胜率高达 70%,然而加拿大对却以 3-0 的全胜的姿态摘得比赛冠军。

这是为什么?

Martynov 解释说:「比赛大概有 40% 是随机运气,而另外 60% 则不然。我们的工作是预测 『非运气』 的那一部分。真的有客户会在数据显示获胜的情况下连续输掉五次比赛,教练会很焦急地打电话给我们的分析师,我通常会告诉他们,『淡定,这只是概率的问题。你们大可继续现在的打法,迟早会连赢五场比赛的。』」

三年打下 5-7% 的职业冰球市场占有率

冰球不再是单纯的体能和技巧上的角逐,而是数据智能驱动的策略对抗。这是 ICEBERG 在行业打开局面的机会。

起初,24 岁的 Martynov 是从他从事风投行业的父亲那儿争取到了 25000 美元的启动资金,用这一小笔钱他召集自己在多伦多和莫斯科的程序员朋友,开发了平台的测试版本。

按 Martynov 的说法,公司在平台上线后几个月内就已经实现收支平衡,三年时间占据全球职业冰球队 5-7%的市场份额,还在去年入选了加拿大最有前景的人工智能初创公司之一。现在,公司已拥有大约 20 家球队客户,遍布了包括 NHL 的纽约岛人队在内的全球多个冰球联盟。

公司拥有明确的订阅收费模式,从每场比赛 400 美元到 800 美元不等。这意味着如果一支球队在一个赛季中连续打 60 场比赛,他需要支付 ICEBERG 30,000 美元。每场比赛之后,客户都会受到会收到一份成绩报告,并可以通过在线门户查询自己的表现。

同时,公司也会把分析师分配给每个球队客户,随时准备解答他们的问题。

对 Martynov 来说,签单是一个说服教练、经理以及俱乐部的漫长过程。譬如,中欧的教练对使用新技术非常谨慎。Martynov 与奥地利的萨尔茨堡红牛队谈了四个月。

「教练很困惑地问我,『为什么我需要这个?』」Martynov 回忆道:「我告诉他们分析平台不是要取代教练或经理人,而是给球队一个战略优势。」

也有另一个极端,瑞典的韦克舍湖队和 Färjestad BK 队只用了五分钟就决定和 ICEBERG 签约。对于两队的教练来说,使用数据分析带来的竞争优势不容忽视。

不过,在 Martynov 看来,冰球市场并不大,几乎仅相当于足球市场 2% 的份额,公司仍然需要快速向其他领域拓展,「公司的发展速度不如我预想的那么快,我想在这之后进入足球市场。」

很明显,ICEBERG 这个指代进球得分和射中次数等统计信息背后海量数据的名字,也暗含了其野心不是占领某一两个细分领域那么简单。

]]> 原文: https://ift.tt/2JOthsR
RSS Feed

机器知心

IFTTT

一个高中生开发的全域图像搜索App让人赞不绝口, 这是谷歌和苹果还没做到的事情

几年前,我十分想要一个能够识别出任何东西的 App。事实证明,解决这个问题的困难程度远超想象,但这没能阻止高中毕业生 Michael Royzen 的尝试。

他的 SmartLens App 便试图解决这一问题,对指定物体进行识别,并获取更深入的信息。当然,这款 App 并非完美无缺,但多安装一个也无妨。

之前 Royzen 找到我,我对这个想法既好奇又怀疑——迄今为止,谷歌和苹果都双双失利(至少尚未发布任何好产品),一个利用业余时间的高中生会成功吗?

我与他约在一家咖啡馆见面,想亲自体验一下这款 App。我很惊喜,还有点困惑。

当然,这个想法很简单:你把手机摄像头对着某物,这个 App 就会试图对其进行识别,它利用的是一个巨大的分类代理,但被高度优化过,是基于数千万张图像训练而成。

它可以链接到维基百科和亚马逊,让你立即了解有关产品的更多信息,或者把它买了。

它能识别超过 17000 个物体——比如不同种类的水果和花、地标、工具等等。这款 App 可以轻松区分出(长相奇特的)芒果与香蕉,甚至能够识别出我买的开心果。

后来我用它来识别社区里的植物:周旋、银莲花、木酢浆草。它竟然把它们全部识别了出来,真的很有用,即便有时会稍作犹豫。

而且最有趣的是,所有这一切都是离线完成的,没有通过蜂窝网络或 Wi-Fi 来给服务器发送图像。一切都在设备上进行,只需一两秒钟的时间。

Royzen 通过各种渠道搜刮素材,建立了自己的图像数据库,并花费数天利用 AWS EC2 进行计算,以训练多卷积神经网络。

相较于通过读取条目文本和查询亚马逊数据库的方式,这种方法识别出的产品数量要多得多。

它几乎立刻就能够识别出书籍、一瓶药丸和其它包装商品,同时提供了购买链接。如果你也在线,界面就会弹出维基百科的链接,不过设备中也存储有详细的产品信息。

但关于这一点必须说明的是,SmartLens 的装机内存超过 500 M。

Royzen 的模型很大,因为它必须在手机中存储所有的识别数据和离线内容。这种解决方案不同于亚马逊给 Fire Phone(已卒)开发的产品识别引擎,或是 Google Goggles(已卒),以及 Google Photos 的扫描功能(完全比不上 SmartLens 的识别速度和准确度)。

Royzen 在一封电子邮件中写道:「随着带有桌面类处理器的智能手机的迭代,以及能够对其(以及 GPU)进行利用的本地机器学习 API 的出现,响应快速的视觉搜索引擎应运而生。」

但没有一家大公司这样做了。为什么?

当然,App 的大小和处理器上的收费不可忽略,但它的边缘处理和离线识别的功能不容小觑,毕竟 Royzen 才刚刚起步。

但它可能会面临两个问题:1. 很难赚钱;2. 搜索质量还不够高。

必须指出的是,SmartLens 虽然聪明,但准确性还远远不够。它的识别参考几乎总是离正确答案存在一步之遥。

譬如,它将我的一本书识别成了《White Whale(白鲸)》,不过那并不是《Moby Dick(白鲸)》。被它认作鲸脂镇纸的其实是一把小铲刀。

在获得更为确信的结果前,许多条目只是简要地闪过诸如「人」或「产品设计」等参考结果。它将一种开花的灌木鉴定为 4~5 五种不同的植物——当然,包括人类。

我的显示屏识别参考是「计算机显示器」、「液晶显示器」、「计算机显示屏」、「计算机」、「计算机屏幕」、「显示设备」等等。

游戏控制器的识别结果是「控制」。一把铲子被认为是一个木勺(已经够接近了),还配了一个莫名其妙的副标题「安慰奖」。(下图,此处应有黑人问号脸,what?!)

如果是谷歌或苹果所发布的独立产品,这种表现水平(一般称为怪诞,尽管有趣)是不可容忍的。Google Lens 响应缓慢,体验糟糕,但它只是某个实用的 App 中的一个可选功能。

如果它发布了一个视觉搜索 App,将花卉识别成了人类,这家公司将被口水淹没。

另一个是变现问题。

虽然从理论上说,你可以在拍下书籍封面的同时就即刻下单,但这并不比拍照搜索或谷歌/亚马逊搜索来得更为方便。

同时,用户仍然对此心存困惑。它能识别哪些东西?不能识别哪些?我需要它来识别什么?它可以识别很多东西,从犬类品种到商品店面,但可能无法识别其他一些东西,例如一个很酷的蓝牙音箱,或是你朋友戴的机械手表,或当地画廊里展出的某幅画作的作者(不过有些可以被识别出来)。

我在使用它时觉得,我只会用它去识别一些它认为自己能够识别出来的东西,比如花朵,但在一些它无力识别或可靠性不高的事物方面,我就会犹豫。因为我怕自己会感到沮丧。

然而,在不久的将来,人们会慢慢开始接受 SmartLens 的想法。很显然,几年后我们都会认为这是理所当然的。它会直接在设备上进行分析,不需要把图像传到服务器上。

Royzen 的 App 肯定有其自身的问题,但在很多情况下,它表现得很好,实用性很强。

你可以把手机摄像头对着街对面的餐厅,并在 2 秒钟后收到 Yelp 上的评论——不需要打开地图或键入地址或名称——这个想法是对现有搜索范式的一个极其自然的扩展。

「视觉搜索仍然是一个利基市场,但我的目标是让人们认识到,在未来,一个 App 就可以提供关于周围所有事物的有用信息——如今,」Royzen 写道,

「然而,不可避免的,大公司最终将会推出其竞对产品。我的策略是成为市场上的首款通用型视觉搜索 App,并尽可能多地聚集用户,这样我就可以保持领先(或被收购)。」

然而,最让我不满的不是功能问题,而是 Royzen 决定如何使其变现。

虽然用户可以免费下载它,但当打开 App 后,立即就会收到 2 美元/月的订阅注册提示——甚至是在查看该 App 的效果之前。

如果我还不知道这个 App 可以做什么以及不能做什么,我会在看到付费提示后果断将其删除,并且即使我知道自己会用它来识别哪些东西,也不可能为它永续付费。

 一次性激活收费将更为合理,并且还得有亚马逊的推荐码。但是,要让从未体验过产品的用户支付月租,这是不可能的。我告诉过 Royzen 我的担心,我希望他对此重新考虑。

最好还可以扫描相册中的图片,或者保存与搜索结果相关的图片。UI 方面需要改进,比如对识别准确度的衡量,或是某种反馈,可以让你知道它仍然处于识别状态。这些功能至少已被提上理论日程。

最后,Royzen 的努力令我印象深刻。我在回顾这一切时感到震惊,一个人竟然可以独自开发出这样一款 App,完成如此复杂的计算机视觉任务,何况他还是一名高中生。

这就是那种野心勃勃的 App——企图用一款工具创造出一家好玩的科技巨头,像是十年前的谷歌那样。

或许,它所代表的更像是一种好奇心,而非一个工具,而曾经的那些文本搜索引擎也是如此。

]]> 原文: https://ift.tt/2rgwjOR
RSS Feed

机器知心

IFTTT

一家机器人公司倒闭了,只留下了一地产品与嘲讽

TICKTOCK 已经没有多少时间了。

如果你不知道 TICKTOCK 是什么,别担心,毕竟这家公司一年前才刚刚创立。但就在短短的一年时间中,公司循环试行了四种不同的消费者机器人理念,希望能塑造家庭的未来,超过 iRobot 的傻瓜式吸尘机器人,开发出真正的智能机器。

但是,在 TickTock 公司崩塌之后,联合创始人、前谷歌员工 Ryan Hickman 正在坦诚地向我们讲述,究竟构建一个不受欢迎的机器人是一种怎样的过程。

不管用户怎么想,至少他们成了不受风投们欢迎的机器人——大约有 200 名投资者认为 TickTock 是一家试图在公司倒闭前骗取资金的公司。

但是 TickTock 的经验教训,对于深入洞察未来家庭机器人的形态,以及未来哪家公司将最终征服这一领域,都是有价值的。

TickTock 统一的想法就是让机器更像人类——唯一的不同就是用摄像机替代眼球。

目前许多移动类型的机器人(比如自动驾驶汽车)使用了激光雷达,这种技术通过激光探测周围环境,从而构建 3D 地图,但这需要消耗大量的计算资源以及资金。所以,TickTock 希望单独使用一套相机组来投影真实世界环境。

通过机器视觉,机器人自身可以明白某些特定任务,比如障碍避免等,但是对于一些更加复杂的事情来说(比如在家中规划路线)机器人可以通过增强现实技术(AR)来覆盖人类轨迹。滑动机器人(Slider),滑动到特殊设计的容器下。

TICKTOCK 的机器人家族 

TickTock 的第一个家庭机器人概念被称为 Slider,它或多或少可以被看成是一个智能滑板。

重要的是,Slider 机器人摄像机组件中包含的一个深度传感器,能够帮助机器人看到地毯之类的东西,识别自然环境的颜色,确定其正在以某种模式扫视前方,而不是单纯识别出某个障碍物。

Slider 会在专门设计的垃圾桶和洗衣桶下滑动,把它们从一个房间转移到另一个房间。

「老实说,有很多人嘲笑过我们,」Hickman 说道。「他们说,『天哦,你这机器人听起来倒不像是什么家庭必需品,更像是一种便捷性产品。』」

 但除此以外,Slider 机器人需要人类在生活中做出一些微小的行为改变:你需要把这些特殊的箱子放在机器人能接触到的地方,而这可能会给你造成一些不便。

即便这样,TickTock 认为人们确实喜欢那种能够清洁屋子的机器人,就像是吸尘机器人那样。但这方面还有改进的空间:事实证明,一些普通款的文胸对吸尘机器人来说就像是手榴弹一样。

「她们把文胸随意乱扔,文胸的松紧带上的金属闩刚开始会缠绕在吸尘机器人的情节刷毛上,直到金属闩紧紧卡在机器人上,然后啪得一声断裂……最后松动进入机器人内部,在里面『炸开』」Hickman 说道。

TickTock 的清洁机器人叫 Sir-B,它看起来更加聪明,可以绕过文胸和椅子腿这类的障碍物。

「计算机视觉可以解决这类问题,」Hickman 说道。「计算机视觉可以让清洁机器人在自主导航方面变得更加智能,这样就不会卡在某件东西里面。」

这款机器人还能学习如何更高效地清理房间,不再是仅仅按照固定的时间表运行,而是确定哪些时间孩子更有可能把早餐中的麦圈扔在地板上。

然而,投资人对此并不买账。没错,就是那个篮子

所以,TickTock 又开发了 Tidy。它本质上是个智能的玩具收纳篮,能够「游戏化」孩子们拿起玩具的方式。

如果你觉得 Tidy「很硅谷」,兄弟你不是一个人。

「人们表示这是他们见过最硅谷泡沫化的东西了,」Hickman 说道。「还有一些贬义的描述,称其为一个价格高达 700 美元的玩具箱。」

因此,TickTock 为了投其所好不得不继续前行。公司又创造了一种 Sir-B、Tidy、Slider 三者的复合体:家庭管家。TickTock 的管家机器人。杂物袋放在底部,钥匙钱包手机等均放在顶部。

你可以把它想象成一个移动的桌子,你可以把手机放在顶部。

如果你想去不同的房间,家庭管家能够把手机带给你;如果你不在家,它可以作为安全机器人在家中巡逻;你甚至能远程遥控它,去检查你走的时候是不是忘了把炉子关上。

「这是我们想出的最好的点子,而且在技术上是完全可行的。」Hickman 说道,「但是,跟我们谈的投资人认为要开发出所有的应用体验和硬件产品,需要耗费 3000~4000 万美元。并且家庭管家还是一个没有经过验证的产品市场。」

言下之意就是,他们投了钱,但是你最终仅仅只能售出少量几台「家庭管家」。一般来说,当你只能卖出少量产品的时候,风投们是不会喜欢你的点子的。

 Hickman 认为这其中确实有自己一部分的原因。

「我必须诚实的看待自己,也许我并没有什么值得投资的地方,」他说道。「每一位投资人都对我说:『我喜欢你的团队,你们的技术性非常强大,我相信你能造出你所说的东西。但是我认为你卖不动你的产品。』」

于是,TickTock 就被迫关门了。

但是 Hickman 认为他概念中的核心技术以及增强现实技术,会在不久的将来定义个人机器人。公司的 AR 可视化平台

 借助他为机器人开发的增强现实机器人可视化平台,你可以拿起你的手机,在房间里点击,指挥一个机器人前进,并训练它识别新的环境,或者让它走一条你想要走的特定路线。

操作非常容易,即使是一个孩子都能做到——说实话,孩子们可能不会像成人那样优雅地进行操作。

此外,一旦机器人启动处于运行当中,你就可以切换到更加自然的语音控制来命令机器人。

不幸地是,对于像 Hickman 这样的小公司来说,科技巨头们不用在用户家里放一台机器人,做的东西也早已远远领先他的增强现实平台。

「如果你已经通过 Siri 、Alexa、谷歌甚至是 Cortana 拥有了自己的数字化生活,那么这些平台就有了你的日历以及联系信息,」Hickman 说道。

「未来肯定会有一场争夺房屋所有权的平台战争。」

如果你看完这篇文章,有兴趣的话请回答我们发起的一个问题:

如果这家公司在中国,会成功获得投资吗(doge doge)?

]]> 原文: https://ift.tt/2w9szV6
RSS Feed

机器知心

IFTTT

事实证明iPhoneX是苹果Q2财报最大功臣,但公司转型也迫在眉睫

5 月 1 日,苹果发布 2018 财季第二季度财报,财报显示,本季度净营收 611.37 亿美元,同比增长 15.5%。

净利润也从去年同期 110.29 亿美元上涨至 138.22 亿美元,增速达 25.45%。

由于公司业绩表现出色,公司稀释后每股盈利也从去年同期的 2.1 美元涨至 2.73 美元。

「亮眼的业绩表现给我们带来了 30% 的 EPS 增长,还有 150 亿美元的现金流」,苹果 CFO 卢卡·梅斯特里(Luca Maestri)说道,

「我们现在能够很灵活的使用我们的现金流来优化公司资本结构,我们很高兴的宣布公司董事会已经批准了一项 1000 亿美元的股票回购计划,还将加派 16% 股息」。

 财报发布后,苹果股价上涨 2.32%。

细分来看,iPhone 系列的手机终端销售仍然贡献了大部分营收,占比高达 62%。

尽管其 5220 万部的季度销售量仅同比增长 3%,但其带来的收入却超过了 380 亿美元,同比增长 14%,这意味着苹果售价高达 999 美元的新产品 iPhone X 销售情况超过预期。

按照财报来计,苹果发布 iPhone X 之后,iPhone 系列的平均售价超过了 726 美元,约合人民币 4618 元。按照库克所说,iPhone X 在二季度里的每周销售情况都好于其他任何一款 iPhone。

当季,苹果共售出 911.3 万台 iPad,去年同期为 892.2 万台,微涨 2%,来自于 iPad 的营收为 41.13 亿美元,相比去年同期 38.89 亿美元增长了 6%。

 iPad 作为苹果开创的全新品类,在市场上一直被视作平板电脑的领军者。

但是近年来随着大屏手机的普及,进一步压缩了 iPad 的市场空间,主流厂商都转向盘活存量市场。

以苹果为例,公司今年年初推出的第六代 iPad,虽然整体硬件配置上与 2017 年的 iPad 差异不大,但是处理器上已经升级到了 A10 Fusion 级别,并且支持 Apple Pencil,而且正是由于 Apple Pencil 的推出,苹果也在朝着青少年教育和娱乐市场进军,至于结果如何,我们可以在下一季度的财报上看到。

Mac 的销量则是 407.8 万台,去年同期为 419.9 万台,下滑 3%,来自于 Mac 的营收为 58.48 亿美元,去年同期 58.44 亿美元相比基本持平。

根据 IDC 2018 年的统计数据,苹果是全球第五大 PC 品牌,而 2017 年全年 Mac 全球出货量排名第四。但是 Mac 一直没有跟进英特尔第八代酷睿,依然是第五代酷睿 i5 和 i7,其最新的蝶式键盘和 TouchBar 等设计也差强人意,部分影响到了销量。

 除此之外,苹果也一直在新业务上进行探索,试图努力减轻对 iPhone 的依赖,包括 APP Store、Apple Music 和视频服务在内的诸多拓展都在为公司带来新的收入,而且收效显著:

比起去年同期的 70.41 亿美元,今年的服务业务收入增长 31%,到达 91.9 亿美元,占比已经高达 15%。其中最大增长引擎来自 APP Store,其付费注册用户已经超过 2.7 亿,同比增长 1 亿。

 从地域上看,美洲仍然是苹果公司最主要的收入来源,占比 40.6%,欧洲地区则略高于大中华地区,而日本地区和大中华地区的同比营收增速均超过 20%,库克曾对印度等新兴市场也表示乐观。

但是,苹果也面临一些压力,首先就是全球范围内的手机需求量下降,根据相关数据,2018 年 Q1 全球智能手机出货量同比下降 2%,而且仍有下降趋势,对于苹果来说,继续提高设备售价,或者挖掘诸如非洲、印度等新兴市场是个好办法。

 其次,苹果的产品支出达到了自 2014 年第二季度以来的最高位,销售成本占收入比例已经攀升到了 61.7%,这对苹果的供应商来说却是好消息。

总之,苹果的表现好于去年同期,但是也面临一些挑战。

(整理参考自 Quartz、WSJ、Bloomberg)

]]> 原文: https://ift.tt/2rlc2rE
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...