2018年7月2日星期一

美国最严数据隐私法在加州出台,谷歌Facebook亚马逊方了

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

前段时间,欧洲出台的《通用数据保护条例(GDPR)》让全球不少互联网公司重写了他们的隐私政策。

现在,立法维护公民数据隐私这股浪潮已经跨越大西洋,登陆了美国。

前不久,加州州长杰瑞·布朗(Jerry Brown)签署了编号为AB375的《2018加州消费者隐私法》,开启了美国数据隐私立法的进程。

美国最严数据隐私法

根据该项法案规定,针对大型公司(比如用户规模在5万以上),加州的用户必须要能看到它们收集了自己的哪些信息,能够请求删除信息,并选择不将数据出售给第三方。

另外,这项法案还规定公司禁止出售16岁以下儿童的个人资料,除非获得同意。对于尚未年满13周岁的儿童,则需要获得其父母的许可。

如果一家公司有违反以上法律的行为,每次违法行为将被罚款7500美元。

这条法案将在2020年1月1日正式开始实施。

《2018加州消费者隐私法》被称为美国目前最严格的数据隐私法。民主党议员Bob Hertzberg称之为加利福尼亚的一大步,也是全美国的一大步。

而共和党议员Jay Obernolte则认为该法案管得太宽,允许用户控告数据泄漏的范围太过广泛了。

考虑到今年11月将要进行美国中期选举,这项法案很可能是民主党收买人心计划的一部分。

硅谷方了

法案一经出台,硅谷议论重重。

谷歌高级副总裁Sridhar Ramaswamy对此表示,可能会出现一些让人难以理解的后果:"我们需要在用户隐私和合法的业务之间做平衡。"

一些行业协会组织也开启了反对的进程。代表Facebook和亚马逊的互联网协会反对该法案,而互联网行业之外的全国零售联合会和全国广告商协会也一样对该法案表示反对。

而无线行业贸易组织CTIA则希望美国联邦政府管一管,他们认为针对具体一个州的法律将会扼杀美国的创新,并且让用户对此产生困惑。

另外法律学术界也对此有争议,圣克拉拉大学的技术法教授Eric Goldman认为这项法案的通过很可能会影响加州以外的用户,因为把用户分为不同的州可能会给互联网公司带来许多麻烦以及费用限制。

但硅谷的慌张也有自作孽的成分存在。

比如,在此前的"剑桥分析"丑闻中,8700万Facebook用户的数据遭泄露。

而在去年,Uber 11月的数据泄露事件中影响了5700万用户;10月的雅虎用户数据泄露事件牵扯的用户数则高达30亿。

2016年,汤不热(Tumblr)和领英(LinkedIn)也分别被黑客攻击,前者泄露了超过6500万用户的邮箱帐号密码,后者泄露了1.67亿领英用户的登录信息。

虽然这项法案引发了巨大的争议,不过,在2020年该法案正式实施之前,硅谷互联网公司们依然还有游说的空间。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2IJXTLf
RSS Feed

RSS5

IFTTT

潘建伟团队实现18个光量子比特纠缠,再次刷新世界纪录

夏乙 问耕 发自 凹非寺量子位 出品 | 公众号 QbitAI

又一个突破诞生!

中国科大宣布在国际上首次实现18个光量子比特的纠缠,刷新了所有物理体系中最大纠缠态制备的世界纪录。

没错,刷新这个纪录的,又是潘建伟教授团队,包括:陆朝阳、刘乃乐、汪喜林等人。

这一成果可进一步应用于大尺度、高效率量子信息技术,表明我国继续在国际上引领多体纠缠的研究。

这篇论文,以"编辑推荐"的形式发表在顶级学术周刊《物理评论快报》上,据报道从投稿到接收,只用了三个星期。

论文的传送门在此:

https://ift.tt/2Nj8cJJ

如果你不是注册用户,还有另一个阅读通道。实际上,今年1月,潘建伟团队的这个论文的预印版,也发布在了arXiv上。

arXiv传送门在此:

https://ift.tt/2KGFIrm

量子位也搬运了这个预印版的一些内容如下。

摘要

量子信息科学的核心主题之一,是控制数量不断增长的量子粒子,以及这些粒子的内部与外部自由度,同时保持高度的一致性。通过独立控制和测量每个量子比特,来创建和验证多粒子纠缠的能力,是量子技术的重要基准。

为实现这些,已发表的真多体纠缠研究最高实现了14个囚禁离子、10个光子和10个超导量子比特。

这里,我们通过同时利用六个光子的三个不同自由度,包括路径、偏振和轨道角动量(OAM),实验性的展示了18个量子比特GHZ纠缠。

我们为光子不同自由度之间的可逆量子逻辑运算,开发了高稳定性干涉仪,其精度和效率接近于1,可同时读出18个量子比特状态产生的218=262,144种结果组合。

这一实验的量子保真度测量为0.708±0.016,证明全部18个量子比特的真实纠缠。

这是GHZ纠缠的实验数据。

而上图展示的,是六光子偏振纠缠GHZ态的产生过程:

将中心波长788nm、脉冲持续时间120fs、重复频率76MHz的超快激光聚焦于三硼酸锂(LBO),并向上转换为394nm。

将紫外激光聚焦于三个订制的三明治式非线性晶体上,产生三对纠缠光子。其中每个晶体由两个2毫米厚的β-硼酸钡(BBO)和一个半波片(HWP)组成。

每个输出中,都使用了两片不同厚度和方向的YVO4晶体,对双折射效应进行空间和时间补偿。

三对纠缠的光子组合在两个偏振分束器(PBS)上,就产生了六光子偏振纠缠GHZ态。

攻坚克难

中国科技大学在官方消息中指出,由于量子信息技术的巨大潜在价值,欧美各国都在积极整合各方面研究力量和资源,开展国家级的协同攻关。

例如,欧盟在2016年宣布启动量子技术旗舰项目;最近,美国国会也正式通过了"国家量子行动计划";此前,大型高科技公司如谷歌、微软、IBM等也纷纷强势介入量子计算研究。

多个量子比特的相干操纵和纠缠态制备是发展可扩展量子信息技术,特别是量子计算的最核心指标。量子计算的速度随着实验可操纵的纠缠比特数目的增加而指数级提升。

然而,要实现多个量子比特的纠缠,需要进行高精度、高效率的量子态制备和独立量子比特之间相互作用的精确调控。

量子比特数目的增加,使得操纵带来的噪声、串扰和错误也随之增加。这对量子体系的设计、加工和调控要求极高,对量子纠缠和量子计算的发展构成了一个巨大的综合挑战。

多粒子纠缠的操纵作为量子计算不可逾越的技术制高点,一直是国际角逐的焦点。

2016年底,潘建伟团队同时实现了10个光子比特和10个超导量子比特的纠缠,刷新并一直保持着这两个世界记录。

近期,出于商业目的,虽然IBM、英特尔、谷歌等宣布实现了更高数目的量子比特样品的加工,但是这些量子比特并没有形成纠缠态。

潘建伟团队

1987年,潘建伟从浙江考入中国科学技术大学近代物理系,第一次接触到了量子力学。

他和同事在过去20年一直在国际上引领着多光子纠缠和干涉度量的发展,并在此基础上另辟蹊径地开创了光子的多个自由度的调控方法。

2015年,通过实现对光子偏振和轨道角动量两个自由度的量子调控技术和单光子非破坏测量。

通过多年的不懈探索和技术攻关,研究组自主研发了高稳定单光子多自由度干涉仪,实现了不同自由度量子态之间的确定性和高效率的相干转换,完成了对18个量子比特的262144种状态的同时测量。

潘建伟入选2017《自然》十大科学人物

在此基础上,研究组成功实现了18个光量子比特超纠缠态的实验制备和严格多体纯纠缠的验证,创造了所有物理体系纠缠态制备的世界纪录。

此外,潘建伟还和团队一起建成了国际上规模最大的量子通信网络,从太空建立了迄今最遥远的量子纠缠,构建出世界上第一台超越早期经典计算机的光量子计算机……

前不久潘建伟指出,曼哈顿计划使得美国率先掌握核武器影响20世纪的政治格局,量子信息技术从某种意义上讲是和平年代的"核武器"。由于我国重视比较早,目前处于并跑状态。

潘建伟现担任中国科学技术大学常务副校长,中国科学院量子信息与量子科技创新研究院院长,中国科学院院士等职。

论文

如果你想直接下载PDF版本的预印版论文,可以在量子位公众号(QbitAI)后台,回复:"18"这个数字,即可获得。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2NjG6Oz
RSS Feed

RSS5

IFTTT

美国最严数据隐私法在加州出台,谷歌Facebook亚马逊方了

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

前段时间,欧洲出台的《通用数据保护条例(GDPR)》让全球不少互联网公司重写了他们的隐私政策。

现在,立法维护公民数据隐私这股浪潮已经跨越大西洋,登陆了美国。

前不久,加州州长杰瑞·布朗(Jerry Brown)签署了编号为AB375的《2018加州消费者隐私法》,开启了美国数据隐私立法的进程。

美国最严数据隐私法

根据该项法案规定,针对大型公司(比如用户规模在5万以上),加州的用户必须要能看到它们收集了自己的哪些信息,能够请求删除信息,并选择不将数据出售给第三方。

另外,这项法案还规定公司禁止出售16岁以下儿童的个人资料,除非获得同意。对于尚未年满13周岁的儿童,则需要获得其父母的许可。

如果一家公司有违反以上法律的行为,每次违法行为将被罚款7500美元。

这条法案将在2020年1月1日正式开始实施。

《2018加州消费者隐私法》被称为美国目前最严格的数据隐私法。民主党议员Bob Hertzberg称之为加利福尼亚的一大步,也是全美国的一大步。

而共和党议员Jay Obernolte则认为该法案管得太宽,允许用户控告数据泄漏的范围太过广泛了。

考虑到今年11月将要进行美国中期选举,这项法案很可能是民主党收买人心计划的一部分。

硅谷方了

法案一经出台,硅谷议论重重。

谷歌高级副总裁Sridhar Ramaswamy对此表示,可能会出现一些让人难以理解的后果:"我们需要在用户隐私和合法的业务之间做平衡。"

一些行业协会组织也开启了反对的进程。代表Facebook和亚马逊的互联网协会反对该法案,而互联网行业之外的全国零售联合会和全国广告商协会也一样对该法案表示反对。

而无线行业贸易组织CTIA则希望美国联邦政府管一管,他们认为针对具体一个州的法律将会扼杀美国的创新,并且让用户对此产生困惑。

另外法律学术界也对此有争议,圣克拉拉大学的技术法教授Eric Goldman认为这项法案的通过很可能会影响加州以外的用户,因为把用户分为不同的州可能会给互联网公司带来许多麻烦以及费用限制。

但硅谷的慌张也有自作孽的成分存在。

比如,在此前的"剑桥分析"丑闻中,8700万Facebook用户的数据遭泄露。

而在去年,Uber 11月的数据泄露事件中影响了5700万用户;10月的雅虎用户数据泄露事件牵扯的用户数则高达30亿。

2016年,汤不热(Tumblr)和领英(LinkedIn)也分别被黑客攻击,前者泄露了超过6500万用户的邮箱帐号密码,后者泄露了1.67亿领英用户的登录信息。

虽然这项法案引发了巨大的争议,不过,在2020年该法案正式实施之前,硅谷互联网公司们依然还有游说的空间。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2IJXTLf
RSS Feed

RSS5

IFTTT

如何与深度学习服务器优雅的交互?

0. 故事序言

如果有人问小夕:"小夕,要是人工智能的就业岗位一夜之间消失了,你会去转行做什么呢?"

答曰:"当然是去做Linux运维啊23333"

小夕有一台自己负责的GPU服务器,她可让小夕操碎了心呐,真是好不容易把这娇气的小公举拉扯大了。下面就向各位服务器宝宝的爸爸妈妈们传授一下育女经验,让她早日成长为一个省心的深度学习服务器。

下面小夕将依次介绍:

  1. 操作系统建议
  2. ssh免密快速登录
  3. 内网穿透(跨网段访问服务器)
  4. 文件传输与实时同步
  5. 多开发环境管理
  6. 多任务管理(并行调参)
  7. 睡觉调参模式(串行调参)
  8. 关于Jupyer Notebook
  9. 单任务霸占GPU模式
  10. 来自订阅号评论区的其他神操作

1. 操作系统建议

如果你主要用tensorflow来作为你的深度学习框架,那么小夕还是建议安装16.04服务器版。注意是服务器版!为什么呢?因为有很多显卡的高版本驱动与桌面版的图形界面不兼容,导致容易出现循环登陆问题,要解决循环登陆问题也是极其的麻烦,小夕曾经在所里配的笔记本上捣鼓过一周多,重装10余次系统,尝遍国内外各种方法,最终放弃╮(╯▽╰)╭

所以这一次小夕直接为服务器装了ubuntu16.04的服务器版!注意服务器版是没有图形界面的,对shell不熟悉的童鞋要尽快打好基础哦。果然,在服务器版下装驱动装cuda一路next,0errors,0warnings


由于小夕在高中时实在讨厌炸了国产软件全家桶对windows的狂轰滥炸,导致一遍遍的重复

while True:    系统变乱    系统变卡    重装系统 

的过程,于是大学里在一学长的诱惑下,成功入了mac的坑,从此整个世界都清净了,同时对命令行(mac与linux都是基于posix标准,命令行/shell语法高度相似)的沦陷一发不可收拾。。。(好像又跑题了?咳咳,小夕是想说,由于最近几年很少接触windows了,所以本文所列tricks可能对windows的兼容性略差。不过话说回来,做深度学习的日常怎么可能在windows上进行啊喂,不知道pytorch都懒得出windows版本了嘛。(放钩--->


2. ssh免密快速登录

远程登录最最方便的当然就是ssh啦。看小夕的一键登录!

第一行黄色的是小夕的用户名、电脑名、当前目录。小夕设置的命令就是sshdlnlp,敲上这个命令直接进入服务器!

实现这个非常简单,分两步:

首先,将你的登录命令写入你的pc端的bash启动脚本中。Mac系统为 ~/.bash_profile ,linux系统为 ~/.bashrc 。例如你的服务器用户名为dlnlp,ip为102.10.60.23,那么就把这句登录命令写进去:

alias sshdlnlp="ssh dlnlp@102.10.60.23"  
感谢评论区 @karajan1001 指出,还有一种更科学强大的方法:将你的服务器信息写入PC端的ssh配置文件中,配置文件位于 ~/.ssh/config ,例如你的服务器用户名为dlnlp,ip为102.10.60.23,那么就把这句写进去:
Host dlnlp
[一个Tab]User dlnlp
[一个Tab]Hostname 102.10.60.23
[一个Tab]Port 22
(Host后面那个dlnlp是你起的名字,你也可以用更简短的名字)
这样可以 ssh dlnlp 也能快捷登录,注意中间的空格哈。而且scp也更加方便了。

当然,登录命令叫sshdlnlp,你也可以改成别的。保存后别忘 source ~/.bash_profile 或者 source ~/.bashrc 激活一下启动脚本哦。

然后,经过第一步后,只需要再敲密码就可以进入啦。但是懒癌至深的我们怎么能容忍敲密码这么麻烦的事情呢!(划掉,应该是小仙女怎么能容忍敲密码这种事情呢)但是我们又不能牺牲服务器的安全性,那怎么办呢?考验大学里计算机网络基础的时候到了~

也很简单,把你PC端的ssh公钥写入服务器的ssh信任列表里就可以啦。首先用`ssh-keygen`命令生成rsa密钥对(生成一只私钥和一只公钥),一路enter即可,但是注意:

之前有已经生成过的同学在此处就选择n吧,没有生成过的同学就一路next~

然后去 ~/.ssh/ 文件夹下将公钥发送到服务器上的某文件夹里:

然后去服务器上,把你PC端的公钥丢进ssh信任列表:

cat id_rsa.pub >> ~/.ssh/authorized_keys 

好啦~搞定啦,再回到你的PC端登录试试吧,是不是连输入密码都省掉啦。

3. 内网穿透(跨网段访问服务器) 

但是注意哦,如果你的服务器是在局域网内,那你的PC离开这个局域网的时候当然就找不到你的服务器啦。想要在家里用GPU服务器?很简单,小夕教你分分钟内网穿透!

在内网穿透方面,小夕试了好几种方案后,感觉还是花生壳对新手最友好也最稳定。我们的内网穿透只需要将服务器内网ip以及22端口号(即ssh端口号)映射到外网ip的某个端口号。这个过程使用花生壳非常简单,在网上有很多教程,小夕就不啰嗦啦。之后我们要做的就是将这个外网ip和端口号也封装成一条命令,比如花生壳分配给我们的外网ip是103.44.145.240,端口是12560,那么只需要把这个写入客户端shell启动脚本:

alias sshdlnlp_remote="ssh -p 12560 dlnlp@103.44.145.240" (别忘用source刷新启动脚本) 

之后就可以在世界各地用一条命令访问你的gpu服务器啦。

4. 文件传输与同步

对于一次性的文件传输,这方面最简单的当然还是直接使用scp命令啦,文件夹和文件都能轻松传输。

但是我们做深度学习的话,在服务器端大面积改代码、重量级调试的话还是不方便,毕竟服务器上没有图形界面,大部分人还是用不惯vim的,那么能不能在PC端用漂亮的编辑器修改代码,将修改结果实时的同步到服务器端呢?当然可以!这里小夕推荐文件同步神器syncthing

剩下的就是傻瓜式配置啦。记得要更改文件夹刷新频率哦(默认是60秒,我们可以改的短一点,比如3秒),这样在客户端我们用漂亮的文本编辑器对代码的改动就能实时的同步到服务器上啦,在服务器端就只需要负责运行就可以咯。

5. 多开发环境管理

如果不幸你的GPU服务器并不是你一个人用,那么这时多人(尤其是混入小白多话)经常把服务器默认的python环境弄的乌烟瘴气,比如有人用python2,有人用python3,有人用tensorflow1.3,有人用0.12等...最后导致大家的程序全跑崩了。

所以在服务器端管理深度学习的开发环境是极其必要的,这里anaconda直接搞定!每个人建立和管理自己的开发环境,包括python版本、各种库的版本等,互不干扰。而且在发布project时,也方便直接将环境导出为requirements文件,免得自己去手写啦。

6. 多任务管理(并行调参)

如果你的服务器上有多个GPU,或者你的任务消耗GPU资源不多,那么并行的训练模型调参数是极大提高开发效率的!这里小夕给出几种场景下的常用方案:

1、比如我们在服务器上除了训练还要接着干别的事情(比如还要捣鼓一下贪吃蛇什么的),那么我们就可以直接将训练任务挂后台。具体如下。

在linux中,在命令后面加上 & 符号可以将命令在后台执行,为了能看到训练日志,我们当时还需要输出重定向(否则会打印到屏幕上干扰正常工作的),所以比如我们调batchsize参数时可以这样:

dlnlp@ubuntu:~$ python train.py --batchsize=16 > log_batch16.txt & 

当然再挂上其他batchsize大小,如:

dlnlp@ubuntu:~$ python train.py --batchsize=16 > log_batch16.txt & dlnlp@ubuntu:~$ python train.py --batchsize=64 > log_batch64.txt & dlnlp@ubuntu:~$ python train.py --batchsize=128 > log_batch128.txt & 

通过 jobs 命令可以看到后台任务的运行状况(running、stopped等),通过 bg [任务号] 可以让后台stopped的命令继续running,通过 fg [任务号] 可以让后台的任务来前台执行。对于前台已经执行起来的任务,可以 ctrl+z 来丢进后台(丢后台时stop了的话用bg让其run起来)。

感谢微信用户A Bad Candy在微信订阅号后台留言提醒上面的丢后台方法会在ssh断开连接后进程终止,因此:

如果我们还不希望ssh断开后导致训练任务终止,那么需要再在命令前面加上 nohup 。如:

dlnlp@ubuntu:~$ nohup python train.py --batchsize=16 > log_batch16.txt & 

2、如果我们特别着急,不仅要并行挂着很多训练任务,而且都要实时的监控它们的训练进展,那么使用 screen命令吧,这个命令就相当于可以让你同时开很多个窗口(就像桌面上那样,你可以开很多应用程序的很多窗口),而且多个窗口之间可以轻松切换,同样这种方法不会因为ssh的断开而停止训练任务。

具体的操作可以直接在linux下 man screen 来查看screen命令的帮助文档。英文恐惧症的童鞋可以看本文参考文献[1]。

7. 睡觉调参模式(串行调参)

大部分场合下我们没有那么多充裕的GPU可以用,我们一般只能一次挂一个任务,但是我们又有很重的调参任务,那怎么办呢?

依然很简单啦,首先,装好python-fire这个工具。

它可以非常轻松的将你的python程序变成命令行程序,并且可以轻松的将你要调的参数封装成命令行参数的形式。

然后,写一个调参shell脚本,把你要调的参数全都写进去!比如就像这样:

(当然别忘在代码里将训练的summary写到某个文件里)

然后就可以挂上这个脚本去睡觉啦~睡到天亮发现各个最优参数都找到了,超级开心有木有。

8. 关于jupyter notebook

jupyter notebook这个神器小夕在历史文章中写过啦,也是一个重量级调参神器!或者直接可以说深度学习神器!在服务器端依然犀利的无可替代,只需要如下的tricks。

1、服务器端开启jupyter notebook后

然后复制最后那一行的 token=xxx ,这个token就是远程访问的密码!同时记下 最后那行显示的端口号 8888(因为如果服务器上同时开多个的话,端口号就不一定是8888了哦),然后去PC端做一个端口映射!即通过ssh隧道来将服务器端的8888端口号映射到本地(PC端)的某个端口(如1234):

ssh -L 1234:localhost:8888 dlnlp@102.10.60.23 

(这个操作同样可以用于远程监视服务器端tensorboard)

这时就可以在PC端的浏览器

http://localhost:1234 

直接访问服务器上的jupyter notebook啦~当然,访问时会让你输入密码,这时就输入之前记下的那个token哦。

2、让jupyer notebook跟anaconda开发环境融合。

默认的情况下jupyter notebook是运行在系统默认环境里的,如果要让它运行在我们自己用ananconda创建的环境中,要进入那个环境中,然后安装 nb_conda 这个库:

conda install nb_conda 

这时再开启jupyter notebook就能选择在我们这个环境里运行代码啦。

9. 单任务全霸占模式

有时我们的训练任务非常重要且急迫,且绝对不允许被别人挤崩,或者我们明知要占用全部GPU资源了,那么这时我们就可以。。。emmm事先说明,非必要时刻请勿频繁使用哦:

使用linux中的 run-one 命令,这个命令可以保证同一条命令最多同时运行一个。比如 run-one python xxx 就会只允许运行一个python程序,后来的python程序在这个python程序执行完毕前是得不到执行的(一执行就会出错返回)。所以我们可以写入.bashrc:

alias python='run-one python' 

(别忘source激活哦)

这时

看,我通过将第一个python挂到后台了,后面的python完全执行不起来。除非前一个python结束。(所以其他小伙伴可能以为自己的程序出问题了,然后emmm陷入了无尽的困惑)

参考文献

[1] 跑深度学习代码在linux服务器上的常用操作(ssh,screen,tensorboard,jupyter notebook)

]]> 原文: https://ift.tt/2IL6jSj
RSS Feed

机器知心

IFTTT

不,你根本不需要ML/AI,有SQL就够了

原作:Celestine Omin铜灵 编译整理量子位 出品 | 公众号 QbitAI

昨天,软件工程师Celestine Omin发表了一篇观点犀利的文章。Omin现就职于为非洲人提供在线编程培训和工作的Andela公司,此前曾在尼日利亚最大的电商Konga工作。

Omin认为,当下很多公司费尽心思用AI/ML方法处理的任务,其实用经典简便的SQL就能解决。

这个观点引发程序员热议,大家兵分两派、自动站队,量子位将文中精彩观点编译加工,不知道你怎么看?

多此一举

一些有趣的技术和概念正在涌现,比如机器学习、人工智能、虚拟现实、增强现实、区块链等——而一些现有的技术则退居其次。

让人好奇的新技术开始变得炙手可热。

我听闻,现在如果你想尽快融到资,就必须与区块链沾点关系,即使与公司主业务不太相关,也得强蹭一下——

就像AI/ML的诞生对传统计算机方法的冲击一样。在AI/ML诞生前的几十年里,人们用简单传统的SQL(结构化查询语言)分析商业和财务。

我认为,现在很多公司大张旗鼓用花哨的AI技术解决的任务,其实用SQL就能完全办到。

这项已有40多年历史的技术在今天仍然具有重要意义,就像它在1974年首次出现时一样。

不信?我证明给你看。

给你实锤

SQL的功效可能超乎你想象。

当我在尼日利亚电商Konga工作时,有一次我们需要对很长时间没有登录的用户进行回访。SQL登场了。

我编写了一个SQL查询收集所有三个月没有光临的顾客,这个步骤相当简单。收集完资料后,我们会发送一张带优惠券的邮件。这个方法比从谷歌和Facebook上用AI和ML算法的效果厉害得多。

我们还将SQL用于AI/ML经常现身的个性化推荐任务中。

我编写了SQL查询用户购物车里的商品并提取单个条目,根据购物车里的商品类型,可以大致判断用户需要什么、我们可以推送什么。大多数营销邮件的打开率在7-10%之间。当我们用SQL做得好时,打开率接近25-30%,是行业平均打开率的三倍。

看吧,这就是SQL的魅力,简单高效,丝毫不亚于ML。

不仅如此,对于那些因为各种原因无法完成订单的客户,我们也没有让他们放弃。只要他们把商品加到购物车里,就表明他们有购买的意图。为了吸引他们快点"拔草",我编写了一个漂亮的SQL脚本,并将其与CRON命令结合给客户发邮件。我们通过邮件追踪用户行为,发现这个方法特别管用。

这个SQL非常简单,是从状态不为空且最后更新周期≥48小时的购物车中选择的。我们把CRON设为每天凌晨2点,顾客醒来后会收到邮件,提醒购物车中还有心水的商品。这里也没有什么特别的技术,只有SQL、Bash和CRON。

还有太多太多类似的例子,都在证明SQL是一种简单且高效的方法,可以代替很多人口中的"性感且复杂"的AI/ML。

有没有发现,当你在苦苦钻研如何用机器学习开辟一条技术新路的时候,好用的SQL就在眼前。众里寻AI千百度,而SQL就在灯火阑珊处。

不知道作为AI/ML研习者的你,怎么看?

最后,附文章原文地址:

https://cyberomin.github.io/startup/2018/07/01/sql-ml-ai.html

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 https://ift.tt/2Ks3ICH
RSS Feed

RSS5

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...