2017年11月2日星期四

谷歌发布 TensorFlow 1.4.0 版本,Keras 成为核心模块,API 变动较大

近日,TensorFlow 1.4.0 版本公布在了 GitHub 上,它更新和完善了一些主要功能,修复了一些 bug,并做出了其他变动,其中 API 方面的变动较大。


GitHub 地址:http://ift.tt/2z936LJ


主要功能与提升


  • tf.keras 现在是 TensorFlow API 内核的一部分。
  • tf.data 现在是 TensorFlow API 内核的一部分。

  1.     API 现在让步于后向兼容性保证。
  2.    有关从 tf.contrib.dataAPI 迁移的指导,请参见          http://ift.tt/2Af93og
  3. 主要的新功能包括用于从 Python 生成器构建输入通道的 Dataset.from_generator() 和应用自定义转换功能的 Dataset.apply() 方法。
  4. 若干个自定义转换功能已添加,包括 tf.contrib.data.batch_and_drop_remainder() 和

  • 为简单的分布式 Estimator 训练添加 train_and_evaluate。
  • 为计算 DCT-II 而添加 tf.spectral.dct。
  • (通过 GPU 和梯度支持)把梅尔频率倒谱(Mel-Frequency Cepstral)系数支持添加到 tf.contrib.signal。
  • 为 Windows DLL 问题在 import tensorflow 上添加一个自我检查。
  • 在 GPU 上为 tf.depth_to_space 添加 NCHW 支持。
  • TensorFlow 调试器(tfdbg):

  1. 添加 eval 指令,以允许评估 tfdbg 命令行接口中独断的 Python/numpy 表达式。详情参见调试 TensorFlow 程序:http://ift.tt/2kLsw6Q
  2. 可用性改进:常用的张量滤波器 has_inf_or_nan 现在被添加到 Session 包装器,并默认 hook。因此没有必要为客户端再次调用.add_tensor_filter(tf_debug.has_inf_or_nan)。

  • SinhArcsinh (scalar) 分布被添加到 contrib.distributions。
  • 开源 GANEstimator。
  • Estimator.export_savedmodel() 现在包含所有有效的、可从服务性输入接收器(Serving Input Receiver)和所有可用的 ExportOutput 构建的服务性签名。比如,除了分类性的输出,一个分类器也许可以提供回归和预测性的输出。从这些输出中构建签名允许 TF 服务通过不同的 API(分类、回归和预测)满足请求。进而,serving_input_receiver_fn() 现在也许可指定作为输入的节点的替代性子集。比如,这允许为接受原始张量而不是系列化的 tf.Example 分类器生成一个预测签名。
  • 添加 tf.contrib.bayesflow.hmc。
  • 添加 tf.contrib.distributions.MixtureSameFamily。
  • 每次默认迭代之后总是重新调整 Dataset.shuffle()。
  • 添加 tf.contrib.bayesflow.metropolis_hastings。
  • 添加 log_rate parameter to tf.contrib.distributions.Poisson。
  • 扩展 tf.contrib.distributions.bijector API 以处理一些 non-injective 转换。
  • Java:

  1. 用于提高类型安全性的泛型。
  2. 支持多维度弦张量。
  3. 支持在 Linux 和 OS X 上加载自定义运算。

  • 我们所有的预构建二进制已通过 CUDA 8 和 cuDNN 6 构建完成。我们将发行带有 CUDA 9 和 cuDNN 7 的 TensorFlow 1.5 版本。


Bug 修复与其他改变


  • tf.nn.rnn_cell.DropoutWrapper 现在更在意放弃 LSTM 状态。具体来讲,它不再放弃一个 LSTMStateTuple 的 c(内存)状态。新的行为为 LSTM 和堆栈 LSTM 带来了合适的 dropout 行为。这一 Bug 修复遵从了已发表文献的建议,但是一个行为改变。状态 dropout 行为也许通过新的 dropout_state_filter_visitor 参数被自定义。
  • 删除 tf.contrib.training.python_input。通过新的 tf.contrib.data.Dataset.from_generator 方法,相同行为在一个更加灵活和可重用的工具包中是可用的。
  • 修复 tf.contrib.distributions.Affine 错误计算的 log-det-jacobian。
  • 修复 tf.random_gamma 错误处理的非批处理、标量绘制。
  • 在 TensorForest TreePredictionsV4Op 中重新解决一个竞赛条件。
  • 谷歌云存储文件系统、Amazon S3 文件系统和 Hadoop 文件系统支持现在是默认的构建选项。
  • 自定义操作库必须链接到 ibtensorflow_framework.so(安装在 tf.sysconfig.get_lib())。
  • 改变 RunConfig 默认行为从而不设置一个随机种子,保持随机行为在分布式工作器上独立地随机。我们期待这可从整体上提升训练性能。依赖于决定论的模型应该明确地设置一个随机种子。


API 的突破性改变


  • tf.contrib.data.rejection_resample() 功能的签名已被改变。它现在返回到一个可用作 Dataset.apply() 参数的函数。
  • 删除 tf.contrib.data.Iterator.from_dataset() 方法,并使用 Dataset.make_initializable_iterator()。
  • 删除很少使用的和不必要的 tf.contrib.data.Iterator.dispose_op()。
  • 通过非后向、可兼容的方式重新排序一些 TFGAN 损失函数。


已知问题


  • 在 Python 3 中,Dataset.from_generator() 不支持 Unicode 字符串。你必须早生成器产生它们之前把所有字符串转化为字节对象。


下载


  • 源代码(zip):http://ift.tt/2Ad5HC1
  • 源代码(tar.gz):http://ift.tt/2xTVsRG


]]> 原文: http://ift.tt/2lOxfL5
RSS Feed

机器知心

IFTTT

AI打《星际》被人类碾压?不,事情并没有这么简单

李林 千平 发自 凹非寺量子位 出品 | 公众号 QbitAI

"人类总算能摆脱被统治的阴影"。

这两天,一场《星际争霸》的人机对抗"表演赛",让不少人类感到扬眉吐气。毕竟在这场比赛中,韩国顶级职业玩家Stork(宋炳具),一鼓作气击败了四个AI玩家,赢得500万韩元奖金!

约合人民币近3万元。

宋炳具选手

整场比赛流程是这样的:人类阵营先由两个普通学生星际玩家出场,分别挑战上个月《星际争霸AI大赛》的冠军:ZZZK、来自挪威的TSCMO、主办方韩国世宗大学研发的MJ。

结果AI阵营分别以3:0、2:1击败了普通人类星际玩家,唯一的败仗由韩国星际AI贡献。总比分算是5:1。

然后就是Stork登场,以一波4:0碾压AI,挽回人类颜面。

为什么赢了四场?因为原本预计会有三场精彩的人机对决,但是Stork赢得实在是太轻松了,没办法只能临时加赛,让《星际争霸AI大赛》上排名第六的CherryPi压轴登场,结果Stork使用神族侦察机就直捣敌窟。

尽管CherryPi来自大名鼎鼎的Facebook AI研究院,但成绩真是一贯不咋地。

AI选手

  • 带中文解说的现场视频,可以前往这里收看:

http://ift.tt/2iXcWtE

  • 如果对全程感兴趣,可以科学前往这里收看:

https://www.youtube.com/watch?v=L54zoUwVPLI

不够AI的AI

顶级职业选手战胜了AI,乍一听,星际界这个情况似乎跟围棋界形成了鲜明的对照。围棋这个领域,AI战胜了顶级职业选手。

但,还真不是一回事儿。

相比之下,AlphaGo是一套复杂的人工智能系统,现在已经可以几乎不借助任何人类知识,自行学会下围棋,并且迅速的成长为高手。

关于最新版AlphaGo Zero,有人花了一张图进行解读。如果你能看懂的话,应该还蛮有意思的……

而参加这次"星际争霸人机大战"、以及上个月《星际争霸AI大赛》的人工智能系统,都在相当初级的阶段。

比如其中最厉害的ZZZK,背后是澳大利亚的程序员Chris Coxe。他独自创建了这个AI,但其中只有一些简单的学习功能,背后更多是各种预先编辑好的策略。

量子位之前也介绍过,ZZZK只能执行一种单基地Rush战术。另外,这个ZZZK能在游戏中学习一些策略,以判断哪种Rush是最有效的。

星际AI大赛成绩单

当然与普通玩家相比,星际AI还是有着人类难以比拟的优势,比方每分钟可以完成峰值2万次的操作,而人类大概是300次。

由于AI玩的不够好,就不详细解读它们的策略了。有兴趣的可以看上面提到的视频。Stork表示,跟他对局的AI出于普通玩家的中等水平。

总而言之,这次Stork击败的AI,其实不够AI。

DeepMind在干嘛

为什么AI在星际这个领域没能大杀四方?

很简单,太难了。

星际是个实用的基础AI研究环境,因为游戏本身复杂多变。AI想要取胜需要同时做多手准备,比如管理并创造资源、指挥军事单位和部署防御结构等操作需要同时进行,逐步完成。此外,AI还需预测对手的策略。

在围棋领域,Facebook开发的AI最终还是敌不过DeepMind开发的AlphaGo。而现在Facebook又在星际领域率先推出AI。

不管是有心无心,新的"竞争"开始了。不过,DeepMind在干嘛?

DeepMind当然不会错过星际;以及DeepMind选择的路径有点不一样。首先,赛场就不一样,Facebook在星际中搏杀,而DeepMind选择了星际2。其次,DeepMind没有直接推AI,而是搞了一套:SC2LE。

这是一套星际2工具包,用于加速AI研究。由DeepMind和暴雪联合发布,这个工具包中包括:

  • 机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。
  • 匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。
  • 开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。
  • 一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。
  • 概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

简而言之,可以看看下面这个视频:

不止星际

AI感兴趣的游戏,不止星际一个。

DeepMind的名字深入人心,可能是因为下围棋的AlphaGo。不过,最初为这家公司在人工智能领域建立了赫赫声望的,是雅达利(Atari)的游戏。

2015年2月,也就在AlphaGo和李世乭下棋之前一年多,DeepMind第一次登上了《自然》封面,他们发表了一篇论文:Human-level control through deep reinforcement learning。这篇论文展示了DeepMind的算法如何学会了49种雅达利游戏,并在其中23种里击败人类。

比如说Video Pinball、Boxing、打砖块(Breakout)、Star Gunner、Robotank等等,AI都很擅长。

DQN打雅达利游戏的战果

这篇论文中的算法DQN,后来成了谈到AI打游戏就一定会说起的一种算法,DeepMind和同行们都对它进行了不少改进,前不久,DeepMind还提出了一种DQN的新变体:Rainbow,论文提交给了AAAI 2018。

热衷于雅达利游戏的,还有马斯克等人联合创立的AI研究机构OpenAI。

在2016年发布的强化学习开发工具包OpenAI Gym中,集成了多个环境,其中就包含基于Arcade学习环境的雅达利游戏。

而年底发布的人工智能测试训练平台Universe更是集游戏之大成,除了2600中雅达利游戏之外,Universe里还有1000个Flash游戏。后来,Universe还引入了《侠盗猎车手5》(GTA V),让研究者用AI在虚拟世界里开车。

兴趣广泛的OpenAI,除了集成到Universe平台上的游戏之外,今年还在DotA 2圈的"世界杯"TI7邀请赛上火了一把,影魔中单solo完虐了职业选手Dendi。

可能还有《王者荣耀》。

此前多个媒体报道称,马化腾表示正在测试AI对战手游玩家。这个信息也被广泛解读为腾讯正在训练AI打《王者荣耀》。正经的说,游戏AI是腾讯一个明确的研究方向,包括LOL中未来可能也会有一个AI大魔王。

为什么科技公司不惜重金打游戏

众多科技公司,都对AI打游戏有着浓厚的兴趣,并不是一个偶然。

对于AI研究者来说,这些游戏天然为人工智能提供了一个比真实世界更简单的交互环境,又能为AI设定一个清晰的目标,同时,还提供了一个简单易用的衡量标准。

AI从游戏中学到的策略,对于现实世界中的其他领域的决策来说也有参考价值。比如说DeepMind用来打砖块的DQN,在对话系统、文本生成上就有着不错的效果,也能用来控制机器人避障、导航。

AI打GTA V,甚至本来就是为了在高仿真环境中,训练人工智能来识别街道、物体。游戏中本身就包含了大量的标注数据,比真是数据量更大、更容易获得。如果你在训练无人车的时候没有Waymo Carcraft那么高级的模拟环境,GTA也是个勉强能接受的折衷选择。

和很多打电子游戏的AI同样用了深度强化学习算法的AlphaGo,就在围棋界"独孤求败"之后找到了自己在现实世界中的价值,DeepMind说,他们期待用AlphaGo的算法,来解决蛋白质折叠、降低能耗、寻找革命性的新材料等等问题。

实际上,从2016年开始,Google就开始在数据中心里应用AlphaGo的算法,来控制风扇、空调、窗户、服务器等等的电量。谷歌说,AI帮他们提高了大约15%的能源利用效率。

打游戏的各位AI们成才之后,大可以多向这位下棋的前辈学习。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2iXcYlg
RSS Feed

RSS5

IFTTT

AI打《星际》被人类碾压?不,事情并没有这么简单

李林 千平 发自 凹非寺量子位 出品 | 公众号 QbitAI

"人类总算能摆脱被统治的阴影"。

这两天,一场《星际争霸》的人机对抗"表演赛",让不少人类感到扬眉吐气。毕竟在这场比赛中,韩国顶级职业玩家Stork(宋炳具),一鼓作气击败了四个AI玩家,赢得500万韩元奖金!

约合人民币近3万元。

宋炳具选手

整场比赛流程是这样的:人类阵营先由两个普通学生星际玩家出场,分别挑战上个月《星际争霸AI大赛》的冠军:ZZZK、来自挪威的TSCMO、主办方韩国世宗大学研发的MJ。

结果AI阵营分别以3:0、2:1击败了普通人类星际玩家,唯一的败仗由韩国星际AI贡献。总比分算是5:1。

然后就是Stork登场,以一波4:0碾压AI,挽回人类颜面。

为什么赢了四场?因为原本预计会有三场精彩的人机对决,但是Stork赢得实在是太轻松了,没办法只能临时加赛,让《星际争霸AI大赛》上排名第六的CherryPi压轴登场,结果Stork使用神族侦察机就直捣敌窟。

尽管CherryPi来自大名鼎鼎的Facebook AI研究院,但成绩真是一贯不咋地。

AI选手

  • 带中文解说的现场视频,可以前往这里收看:

http://ift.tt/2iXcWtE

  • 如果对全程感兴趣,可以科学前往这里收看:

https://www.youtube.com/watch?v=L54zoUwVPLI

不够AI的AI

顶级职业选手战胜了AI,乍一听,星际界这个情况似乎跟围棋界形成了鲜明的对照。围棋这个领域,AI战胜了顶级职业选手。

但,还真不是一回事儿。

相比之下,AlphaGo是一套复杂的人工智能系统,现在已经可以几乎不借助任何人类知识,自行学会下围棋,并且迅速的成长为高手。

关于最新版AlphaGo Zero,有人花了一张图进行解读。如果你能看懂的话,应该还蛮有意思的……

而参加这次"星际争霸人机大战"、以及上个月《星际争霸AI大赛》的人工智能系统,都在相当初级的阶段。

比如其中最厉害的ZZZK,背后是澳大利亚的程序员Chris Coxe。他独自创建了这个AI,但其中只有一些简单的学习功能,背后更多是各种预先编辑好的策略。

量子位之前也介绍过,ZZZK只能执行一种单基地Rush战术。另外,这个ZZZK能在游戏中学习一些策略,以判断哪种Rush是最有效的。

星际AI大赛成绩单

当然与普通玩家相比,星际AI还是有着人类难以比拟的优势,比方每分钟可以完成峰值2万次的操作,而人类大概是300次。

由于AI玩的不够好,就不详细解读它们的策略了。有兴趣的可以看上面提到的视频。Stork表示,跟他对局的AI出于普通玩家的中等水平。

总而言之,这次Stork击败的AI,其实不够AI。

DeepMind在干嘛

为什么AI在星际这个领域没能大杀四方?

很简单,太难了。

星际是个实用的基础AI研究环境,因为游戏本身复杂多变。AI想要取胜需要同时做多手准备,比如管理并创造资源、指挥军事单位和部署防御结构等操作需要同时进行,逐步完成。此外,AI还需预测对手的策略。

在围棋领域,Facebook开发的AI最终还是敌不过DeepMind开发的AlphaGo。而现在Facebook又在星际领域率先推出AI。

不管是有心无心,新的"竞争"开始了。不过,DeepMind在干嘛?

DeepMind当然不会错过星际;以及DeepMind选择的路径有点不一样。首先,赛场就不一样,Facebook在星际中搏杀,而DeepMind选择了星际2。其次,DeepMind没有直接推AI,而是搞了一套:SC2LE。

这是一套星际2工具包,用于加速AI研究。由DeepMind和暴雪联合发布,这个工具包中包括:

  • 机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。
  • 匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。
  • 开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。
  • 一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。
  • 概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

简而言之,可以看看下面这个视频:

不止星际

AI感兴趣的游戏,不止星际一个。

DeepMind的名字深入人心,可能是因为下围棋的AlphaGo。不过,最初为这家公司在人工智能领域建立了赫赫声望的,是雅达利(Atari)的游戏。

2015年2月,也就在AlphaGo和李世乭下棋之前一年多,DeepMind第一次登上了《自然》封面,他们发表了一篇论文:Human-level control through deep reinforcement learning。这篇论文展示了DeepMind的算法如何学会了49种雅达利游戏,并在其中23种里击败人类。

比如说Video Pinball、Boxing、打砖块(Breakout)、Star Gunner、Robotank等等,AI都很擅长。

DQN打雅达利游戏的战果

这篇论文中的算法DQN,后来成了谈到AI打游戏就一定会说起的一种算法,DeepMind和同行们都对它进行了不少改进,前不久,DeepMind还提出了一种DQN的新变体:Rainbow,论文提交给了AAAI 2018。

热衷于雅达利游戏的,还有马斯克等人联合创立的AI研究机构OpenAI。

在2016年发布的强化学习开发工具包OpenAI Gym中,集成了多个环境,其中就包含基于Arcade学习环境的雅达利游戏。

而年底发布的人工智能测试训练平台Universe更是集游戏之大成,除了2600中雅达利游戏之外,Universe里还有1000个Flash游戏。后来,Universe还引入了《侠盗猎车手5》(GTA V),让研究者用AI在虚拟世界里开车。

兴趣广泛的OpenAI,除了集成到Universe平台上的游戏之外,今年还在DotA 2圈的"世界杯"TI7邀请赛上火了一把,影魔中单solo完虐了职业选手Dendi。

可能还有《王者荣耀》。

此前多个媒体报道称,马化腾表示正在测试AI对战手游玩家。这个信息也被广泛解读为腾讯正在训练AI打《王者荣耀》。正经的说,游戏AI是腾讯一个明确的研究方向,包括LOL中未来可能也会有一个AI大魔王。

为什么科技公司不惜重金打游戏

众多科技公司,都对AI打游戏有着浓厚的兴趣,并不是一个偶然。

对于AI研究者来说,这些游戏天然为人工智能提供了一个比真实世界更简单的交互环境,又能为AI设定一个清晰的目标,同时,还提供了一个简单易用的衡量标准。

AI从游戏中学到的策略,对于现实世界中的其他领域的决策来说也有参考价值。比如说DeepMind用来打砖块的DQN,在对话系统、文本生成上就有着不错的效果,也能用来控制机器人避障、导航。

AI打GTA V,甚至本来就是为了在高仿真环境中,训练人工智能来识别街道、物体。游戏中本身就包含了大量的标注数据,比真是数据量更大、更容易获得。如果你在训练无人车的时候没有Waymo Carcraft那么高级的模拟环境,GTA也是个勉强能接受的折衷选择。

和很多打电子游戏的AI同样用了深度强化学习算法的AlphaGo,就在围棋界"独孤求败"之后找到了自己在现实世界中的价值,DeepMind说,他们期待用AlphaGo的算法,来解决蛋白质折叠、降低能耗、寻找革命性的新材料等等问题。

实际上,从2016年开始,Google就开始在数据中心里应用AlphaGo的算法,来控制风扇、空调、窗户、服务器等等的电量。谷歌说,AI帮他们提高了大约15%的能源利用效率。

打游戏的各位AI们成才之后,大可以多向这位下棋的前辈学习。

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2iXcYlg
RSS Feed

RSS5

IFTTT

群贤毕至:微软亚洲研究院第二届院友会闭门会议

上周日,微软亚洲研究院(MSRA)于北京举办了第二届院友会年度闭门会议,包括前微软亚研院院长、创新工场创始人、董事长及CEO李开复,前微软亚研院院长、微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋,以及现微软亚研院院长,微软全球资深副总裁,微软亚太研发集团主席洪小文在内的共三十位嘉宾为各位院友献上了六场诚意满满的对话,分别涉及对 AI 领域的投资逻辑,CTO 的职责与体悟,人脸识别、人机交互、金融以及自动驾驶领域的选择与挑战。清大学国家金融研究院院长朱民为会议做了以「世界金融群结构及市场波动」为主题的报告。

以下为机器之心对会议内容所做纪要。


洪小文致辞:数字化转型对每个公司的影响

参与嘉宾

  • 微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长 洪小文

洪小文提到,大数据、大计算,以及AI算法的结合所造成的影响,叫做数字化转型(Digital Transformation)。而数字化转型将对每一个个人、每一个单位、每一个公司都将产生无比的影响。影响有四部分:


第一,用智能系统迭代产品,这跟中国几年前提出的"互联网+"是非常类似的。


第二,利用智能系统更好地与客户联系。无论是 2B 或者 2C 的企业,乃至政府,都能从消极支持到积极沟通。


第三,优化公司运营。如何利用系统智能来更有效、更高级地运营,是每个公司、每个单位可以利用的机会。


第四,赋能员工。员工是公司最宝贵的财富,用智能系统帮助员工高效地处理工作,同时可以兼顾家庭,甚至于激发其创造力,为公司产出更多的价值。




总而言之,数字化转型是一个全面性的机会。这也是今天在互联网IT行业工作的人最振奋人心的未来机会。


而亚研院从今年开始进行一项新尝试:除了对内输出赋能外,也开放研发成果乃至人才,与中国其他领域的公司合作。例如,和中国最大的投资公司,华夏基金一起做一些前瞻性的共同研究。陆续还会有和其他公司的合作曝光,也欢迎在各个公司的对微软技术有兴趣的院友前来接洽,进行战略上、商业上、技术上的合作。

朱民主题演讲: 世界金融群结构及市场波动

参与嘉宾

  • 清华大学国家金融研究院院长 朱民

朱民展示了自己在国际货币基金组织(IMF) 工作期间的有关世界经济体「关联性」的研究。




世界金融的根本结构变化,使得人的行为、市场的行为发生了根本的变化。一方面,世界经济金融的结构变为网络和群结构,另一方面,群结构引起了世界经济金融的高度关联性和溢出效应。


观察的开始是 2008 年,市值 8000 亿美元的雷曼公司的垮台让全球金融市场当年损失了一半的市值,合 26.2 万亿美元,让世界经济直接损失了 14 万亿 美元,让 6700 万跟雷曼无关的工人变成失业者。由此看来,世界的传导机制已经改变了。


今天世界分成三大版块:服务业版块,核心是美英;制造业板块,主要是亚洲垂直供应链、巴西和智利(巴拿马运河以南,所有的国家在经济上属于亚洲);能源板块,由俄罗斯、沙特阿拉伯、哈萨克斯坦等组成。


而国家和世界通过群结构而不是点线结构联系在一起。小的国家群结构里有小队长,小队长把这个群带到中等集群,中等集群的队长再把它们带到全球核心国家。有趣的是,这个世界群的结构居然和微信非常相近。


当世界变成群时,信息在群之间的流动、耦合的速度是指数级增长的,从而带来系统的不稳定性。


每个人在同一时间接到信息,信息会迅速在群内反弹震荡,变成信心,信心会走向恐慌,恐慌会推动市场波动。这完全异于原有的市场运行机制:大震荡不需要大事件发生引导,一条消息就可以了,而信息的起源无法控制。


最后,朱民称,最后经济学家最终可能需要回到微软,请科学家来解决由信息和信心引起的恐慌问题。


对话:投资未来

参与嘉宾

  • 创新工场创始人、董事长及CEO李开复
  • 源码资本合伙人 张宏江
  • 海尔集团副总裁、首席技术官 赵峰

主持人

  • 硬蛋CTO 李世鹏


投些什么?

李开复:创新工场由孵化器转化为风投后,投资的要点有二。一是投资数据。今天中国已经成为了世界最大的市场:移动互联网人口是美国的 3 倍;手机移动支付是美国的 60 倍;共享单车是美国的 500 倍。大市场意味着大数据,一方面是把已有的数据激活,一方面是快速产生大量新数据。数据转化成为价值,是巨大的创业机会。二是投资「不满意」。因为没有信用卡,所以移动支付起来了;因为没有大型购物商场,所以电子商务起来了。未来其他行业的颠覆,也都是可以预期的,今天中国的医疗、教育,还有有很多不满意的地方,这些都是可以快速颠覆推动的。


张宏江:源码资本主要投资从「应用」开始。如同 AlphaGo Zero 打破大家对数据的迷信:场景规则清楚、目标清晰的情况下,没有数据也能够做出很好的AI。


赵峰:海尔在投资三件事:第一是「人工智能+硬件+软件」,让硬件成为人工智能的出口;第二是不止卖一件产品,而是投资客户的终身价值;第三是通过资本的方式引入资源、硬件、传感器、服务等生态,建造智能全链条的服务生态。


谁适合创业?

李开复:在座的每一位都适合创业,不一定适合做CEO。AI 创业有四种,第一,互联网 AI 创业,靠流量。AI 人才拿不到流量,但是可以把进入这样公司的机会看做「就业」;第二,商业 AI 创业,激活传统行业多年存储下来的数据价值。靠谱,也有问题,因为要服务于思维固化的公司,且「CEO 要变销售」,因为对方会「一定要跟大科学家 CEO 喝酒」。第三,颠覆型 AI 创业,过去没有数据的,把数据找出来。重点是要想清楚合作的方式。第四,全自动化,先做技术,再找应用。一个提醒是,一定要是被市场证明的技术,投资人承担商业的风险、竞争的风险、市场的风险、周期的风险、资本的风险,不愿意再承担技术的风险。


张宏江:技术提供者一定要向上走到 killer app,或者向下走到平台,不然长期价值会有大问题。


前沿技术论坛:看脸的时代

参与嘉宾

  • 商汤科技联合创始人兼CEO 徐立
  • Face++ 旷视科技首席科学家、研究院院长 孙剑
  • 旷视科技创始人兼CEO 印奇
  • 中科院计算所教授、中科视拓董事长兼CTO 山世光
  • 依图科技业务技术副总裁 吴岷

主持人

  • 微软全球执行副总裁,微软人工智能及微软研究事业部负责人 沈向洋

计算机视觉,历史与未来

沈向洋:今天在中国有很多计算机视觉初创的公司,其实计算机视觉已经有 50 年的历史了,最早由 Marvin Minsky 在 MIT 提出,他想得比较简单:相机接到计算机上看看就可以解决,结果做了 50 多年终于有点希望了。


最近深度学习对计算机视觉带来巨大影响,让计算机视觉在很多特定的识别方面,已经初步超越人类。我认为,未来五年,计算机语音会超过人类。十年,计算机视觉会超过人类。超过指的是,不管你看到什么东西,AI 都能做到识别效果比人更好。


我很感动的是微软亚研院做的 ResNet 在计算机视觉里扬威立万,包括 AlphaGo Zero 的两大支柱之一就是 ResNet。


计算机视觉对世界影响巨大,但是还有很长的路要走。




人脸识别:计算机与人类,孰强?

徐立:陌生人识别技术,在一定程度上超过人。熟人识别,还远远不能超过人。不过,不同阶段对「技术成熟」的定义不同:十多年前在罗湖口岸,53% 准确率的人脸识别技术已经在应用了;现在这个阶段也是,在一些场景上可以应用了,因此成为发展的契机。


印奇:人脸识别跟场景结合最重要。场景选好,系统局部可能可以和人相比较。


吴岷:用户体会到计算机的功能强大后自行开发场景的实例:警察系统看到机器在对比 10 年前身份证旧照与真人方面胜过人(哪怕是熟人),就主动询问能否识别尸体照片。


山世光:陌生人识别,特别是配合场景下,机器无疑超越人。熟人识别,哪怕是家庭场景 5 个人,也做不到 100% 识别。


孙剑:人脸识别不止于人脸,人脸识别的问题要超出人脸识别的范围来去解答。


云平台、端应用、垂直领域服务:三个产品角度,公司如何选择?


山世光:中科视拓做垂直领域服务,满足实名制与验明正身需求,落地在公安、单位,全面替代指纹。部署到家庭风险还是偏大,暂时不考虑。


吴岷:依图在云平台方面,接了200多家互联网金融远程身份核实业务。在垂直领域服务方面,我们做了警务通,给民警做身份核实,把核查效率从原来的十万分之三得到了显著提高。


徐立:云+端是必然的走势。端上必然有前置化运算,因为全世界有 37 亿台联网手机,2 亿 5000 万安防摄像头,在 2020 年,中国的安防摄像头+室内摄像头将达到 10 亿支。这不可能完全集中化,但也需要云在背后进行整体调控。垂直服务方面,定制化项目即使营收很大也不赚钱,因此一定要标准化、产品化。


印奇:垂直领域行业要选择中间层。不能是被互联网完全改造过的行业,因为其公司数据垄断,即使占有先机,也容易在后期被抹平。也不能是特别传统的行业,因为尚未完成信息化和联网化,更无从谈数据化与智能化。符合中间层要求典型行业是广义的金融行业与安防行业。


学术分类法:人脸识别是感知问题还是认知问题?

山世光:前端是感知的(perception),后端是认知的(cognition)。目前,计算机视觉只有感知没有认知。但感知也可以做很多:虽然表情识别方面由于缺少专业标注人员,机器很难做到比人好,但是对其他内心情绪的指标感应方面(如眨眼次数,心跳次数,微表情),机器可以感知到肉眼无法观察到的细节并进行解析。


孙剑:认识究竟是否必要,这个问题我纠结了很久且仍在纠结。一方面认知标注难度大,主观内容很难标注一致。另一方面低等动物不需要认知也能进行交互,因此认知的作用仍未可知。但是这是非常重要的问题,下一步机器人要和人交互,一定要解决这个问题。


印奇:企业界往往不在意能否解决艰深的学术问题,业界往往会用工程化、产品化的方法,绕开技术壁垒,找到高性价比的解决方案。


Face ID:终端强应用场景带来哪些机会?


徐立:现在各家的人脸的使用标准都是不兼容的,没有办法进行数据流同步。未来我觉得应该形成联盟,尽早统一人脸的使用标准,才能应用于更多线上与线下场景,获得更大流通性。


印奇:这一代 iPhone 搭载人脸识别技术的驱动力有二:一是全面屏的普及,二是手机厂商对摄像头强大的投入意愿。这两大驱动力之下,人脸识别成为了短期关注点,但可能不是最核心的商业动机。


山世光:iPhone X 对人脸识别有蛮大的一个推广作用,解除大家对「深度学习计算太复杂,没法在便宜的端上做」的误解,让大家意识到可以在端上做很多工作。


对话:CTO 之路

参与嘉宾

  • 联想集团首席技术官、高级副总裁 芮勇
  • 硬蛋CTO李世鹏

主持人

  • 微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长 洪小文


「登顶」 CTO 之后:会不会输入少于输出?

芮勇:去年加入联想后,我发现还是输入比输出大。计算机领域非常广阔,我只了解有限的几个方向,有太多别的东西是从同事那里学到的。联想有一个三级的研发技术体系:BU 看 1-2 年的技术创新,研究院、研发部门看 3-5 年的,创投看 5-10 年的。研究院的大方向包括设备、5G,都和我原来的知识结构没有太大的关系,让我学到很多。同时 CTO 也要和技术部门之外的其他部门打交道,乃至吵架,都是非常好的输入。


李世鹏:芮勇说的是大公司的 CTO,我们是一个小公司,CTO 其实所有的事情都要做,因此输入多而全面,不只是技术,还有商业的需求。


CTO 眼中的技术发展趋势

李世鹏:大方向是物联网+人工智能,也就是数据+算法+AI。然而目标要远大,路线却要脚踏实地。小公司要避免直接做平台,应该先做好特别的产品,再思考横向、纵向扩展。


芮勇:一是设备,PC 之后,手机之后,下一个设备是新发力点?我认为 AR 会成为一个较大的生态。二是设备和云中间的「雾计算」,边缘服务器垂直行业。三是服务器,从单纯服务器转型到服务器+软件,结合垂直行业落地。


数字化转型对外、对内的影响?

芮勇:对外,联想和客户的关系从基于交易的关系变成基于关系的关系。卖完 PC 之后还要思考,什么服务可以帮助 ta。对内,我们在研究如何把员工提出的意见通过自然语言处理的方式直接发给对应部门负责人。另外,联想不同于微软之处,在于做硬件的企业要考虑供应链。我们内部也在举行一个「人机大战」,让供应链专家和 AI 算法分别估算上游进货量、下游出货量等,每月一 PK,还在持续中。


李世鹏:我们也希望把对接商业需求、做客户拜访报告的过程用人工智能来记录、识别、总结。



前沿学术论坛:未来人机交互

参与嘉宾

  • 今日头条人工智能实验室主任 李航
  • 小鱼在家创始人兼 CEO 宋晨枫
  • 清华大学美术学院信息艺术设计系主任、清华大学终身学习实验室主任、清华大学无障碍发展研究院副院长 徐迎庆
  • 百度技术委员会主席 吴华

主持人

  • 微软亚洲研究院副院长 周明



徐迎庆:第一,人机交互中,人的自然交互行为和物理空间的状态变化是多通道、非精确、动态多样的。第二,人要告诉计算机如何理解人的自然交互行为、意图,并且精确的反馈。自然交互的准确性,实时性和鲁棒性还有很大的提高空间。人的生理变化、心理变化、周围环境变化也会影响交互的状态。这都是我们面临的挑战。


吴华:自然语言的精确理解问题,哪怕是限定领域的,也还没有解决,现在只能做到模式匹配。因此接下来第一个待解决问题:不依赖太多标注地解决具体领域的精确语言理解问题。随后还有理解人和人、人和机器之间对话逻辑的问题,人的主观倾向建模问题,人的进化机制问题等等。自然语言的路还有好长好长。


李航:人得到信息主要通过眼睛看,输出信息主要通过语音和语言,所以要做人机交互,理解人的对话是最核心的部分了。在我看来,人机交互的基础已经得到了普遍应用:推荐和搜索就是最成功的人机交互。搜索是人找信息,推荐是信息招人。在对话系统方面,整个业界的水平是只能把单轮对话做得不错。现在看到的多轮对话是以单轮对话为主实现的,含有简单多轮对话机制的,让人感觉像是多轮对话的系统。业界尚未达到认真研究多轮对话的状态,数据并不够。可喜的是,单轮对话通过和用户不断交互为多轮对话收集到了更多数据,在闲聊和任务驱动这两类多轮对话中,可能任务驱动的多轮对话更容易突破。


宋晨枫:人机交互影响影响用户体验的除了技术还有很多其他因素,例如音频处理、ASR、NLP等多个模块的串联。理想情况下,这个串联系统可以达到 90% 满意度,现在的用户交互满意度不足 70%,三个模块都有技术瓶颈,如果想等所有技术完美了再解决问题、推出产品,可能还需要五年的时间。因此在初期,要管理用户预期,做用户自然语言成长体系。让用户知道能问的问题的类目和边界。


前沿技术论坛:AI+金融

参与嘉宾

  • 美团金融 CTO 包塔
  • Datavisor 中国区总经理 吴中
  • 微软亚洲研究院副院长 刘铁岩
  • 乌镇智库理事长 张晓东
  • 36氪联合创始人、鲸准公司总裁 胡健

主持人

  • 氪信创始人兼 CEO 朱明杰


人工智能 + 金融的机会和挑战

胡健:中国市场跟美国市场不一样,但是这几年中国的金融机会非常多。特别是在一级市场。差异体现在:第一,中国有很多做风控/征信的企业,美国相对少。因为美国的信用体系非常成熟,而中国使用信用卡的人数不超过 20%。第二,美国有较多金融技术、智能投顾、量化投资公司,中国较少。因为我国金融市场整体信息化程度偏低、数据结构化程度不足,并且我国大部分金融企业为国有,对人工智能这类新兴事物接受度不高。第三,美国二级市场发达,我国一级市场活跃。中国平均基金的规模不到 2 亿人民币,但是美国平均基金规模至少在 5 亿美金。


张晓东:我国分析师目前搜集数据的手段大部分还是手工搜索,因此只能投研是一个重要的方向。


刘铁岩:在微软亚研院跟金融机构合作的半年多时间里,我们发现了其实有很多技术上的挑战。第一,数据不准确。通常认为,金融相对于其他传统行业数字化的程度较高,实际上这句话只对了一半。在金融领域,输出端信号很好,股票涨跌数据可以细致到分钟;输入端信息不明确,甚至有虚假信息,需要做数据清洗、风控、反欺诈,导致精度很难有保障。第二,二级市场并不是稳定系统,经济原动力、市场规律都会发生变化,基于历史数据的机器学习模型就不好用了。第三,散户数量多,处于盲目投资状态,同时机构投资人受考核指标限制,行为短视而非理性,因此市场离理想状态很远,无法用博弈的方式分析。


包塔:很多时候大家讨论是「金融科技」,还是「科技金融」,我现在的看法很明确:这是金融,科技是手段。所以要尊重金融的客观规律。举一个挑战的例子:小额信贷公司试图用 AI 做人群分析,降低坏账率,但是 AI 分析不出来循环借贷、多头借贷现象,因此有系统性风险。再举一个机会的例子:我国推行普惠金融,力求汇集原来难以服务的客户,而美团等平台,提供了 AI 还原商户运营情况的基础数据,


前沿技术论坛:智能驾驶

参与嘉宾

  • 地平线创始人兼CEO 余凯
  • Momenta CEO 曹旭东
  • 图森高级研究员 黄泽铧
  • Deep Motion 创始人兼CEO 蔡锐
  • 博世中国新业务发展部总监 张翠波

主持人

  • 将门CEO,将门创投创始合伙人 高欣欣





提问地平线:智能驾驶的现状?

余凯:计算力是未来的重要资源,未来资源型的效应会更加明显,因此以十年为维度,大家应该投资计算力。地平线关注自动驾驶领域的计算力,我们希望花十年的时间能够成为自动驾驶这个领域的核心计算力的供应商。自动驾驶需要软硬件的深度结合。它首先是一个软件问题,要把感知、定位、建图、路径规划都要做好,核心是软件。硬件是软件的高效实现方式。我们很期待和英特尔合作,英特尔在自动驾驶里的地位就像三国里的曹操,它兵多将广,有综合实力。当然,我们也会跟英伟达等其他机构保持合作关系。

提问 Momenta: 下一步继续算法创新,还是延展向产业链其他业务

曹旭东:Momenta 成立一年多的时间,经历了三个阶段。第一个阶段搭建人工智能平台和大数据的平台。第二阶段,在做跟自动驾驶相关的算法。第三个阶段,也就是现在,还是持续以软件和算法为主。自动驾驶这个行业太大,未来产业一定会分层,会有众多玩家。一个创业公司能在一个关键点上做透已经创造很大价值了。这是我们关注的重点。

提问图森:为什么选择卡车场景落地?

黄泽铧:我们选择在卡车深耕,有三点考量。第一,长尾问题。L4级别的自动驾驶需要在没有司机监管的情况下完成所有的问题。做到99.99%都不够,任何的 0.01% 都会导致事故,而这对于创业公司来说这是致命性打击。我们预计会花 99% 的精力解决在无人驾驶中占时长 1% 的问题。逐个解决长尾问题对创业公司来说非常困难,我们希望专注于特定业务。第二,高精地图。大规模高精地图的建立和维护都非常困难,而做点对点的货运,可以从线到面去逐渐构建高速运输网,不需要一开始解决全部的问题。

从研发者到创业者,身份转变的感受是什么?

蔡锐:以前我在研究院做立体视觉,做三维,会自诩比做图像厉害一点点。出来以后发现我看问题一直是一维的:只从技术这一个维度看问题。此外,还有商业的问题、用户的问题、资本的问题…… 空间一大,就要降维和投影,会发现奇妙的图案。这让我非常兴奋。

智能驾驶时间表

张翠波:基于博世的预测,L3 量产在 2020 年之后,L4 量产在 2020 年到 2023 年。影响整个时间表的会是个底层技术。一个是芯片本身,第二是传感,第三部分是算法。



]]> 原文: http://ift.tt/2h7DCYn
RSS Feed

机器知心

IFTTT

把乌龟识别成枪,MIT CSAIL提出用3D模型生成对抗样本的新方法

CSAIL 研究人员在一篇新论文中首次展示,生成真实世界 3D 对象,可以持续地「误导」神经网络。


神经网络越来越广泛地应用于自动驾驶等技术,帮助看见和识别目标。此类系统甚至可以帮助完成机场安检识别爆炸物的任务。


但是从很多方面来讲,这是个黑箱,开发它们的研究者不知道其工作方式或为何会被误导。


想象一下,如果一个恐怖分子在炸弹的设计上进行了一些微小的调整,它就可以逃脱 TSA 设备的检测。


尽管我们已经很多年没有见过这样恐怖的场景了,但是本周 CSAIL 研究人员证明这样的风险有多高:他们在一篇新论文中首次展示了一种方法,生成真实世界 3D 对象,这些 3D 对象可以持续地误导神经网络。


该团队证明他们不仅能够使神经网络认为「枪不是枪」,事实上还可以使神经网络将物体识别为他们想要它识别的任何物体。对物体进行少许修改后,该团队的方法可以生成一个被神经网络分类为西红柿的炸弹,甚至有可能使该物体彻底「隐形」。


例如,该团队通过 3D 打印制作了一个玩具乌龟,被神经网络错误分类为枪,篮球被分类为咖啡,无论网络从任何视角识别。


「这项研究清楚地表明我们对神经网络的工作方式的理解出现突破点,而开发了这些系统的研究者还需要花费更多的时间思考如何应对这些对抗样本的干扰。」在读博士生同时也是该论文主要作者的 Anish Athalye 说道,「如果想要使自动驾驶汽车或其它利用神经网络的系统保证安全,需要在这个领域投入更多的研究。」


该项目将投入越来越多的努力到「对抗样本」的研究中。多年以来,研究者不断地发现像素的改变可以误导神经网络,但这样的极端案例通常只被当成满足好奇心的探索,而不是现实中需要担忧的问题。


这很大程度上是因为多数研究者只能用 2D 静态图像误导系统,因为当转动一个 3D 物体时,网络可以找到关键的棱角从而能准确地识别它们。


然而,该 MIT 团队的方法可以在任意选定的转换分布中生成误导网络的对抗样本,无论在分布中如何将物体扭曲或者重新定位。(开发这个方法需要考虑很多复杂因素,从光照到摄像头噪声。)


该论文目前正接受 ICLR 2018 的审核。

]]> 原文: http://ift.tt/2h7RNMH
RSS Feed

机器知心

IFTTT

极限元CTO温正棋谈语音质检方案:从关键词检索到情感识别

本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员,毕业于中国科学院自动化研究所,先后在日本和歌山大学和美国佐治亚理工学院进行交流学习,在国际会议和期刊上发表论文十余篇,获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验,并结合深度学习技术开发了多款语音应用产品。


为了提高客户满意度、完善客户服务,同时对客服人员工作的考评,很多企业会对此采用质检的方式来保证其服务质量。以服务行业为例,呼叫中心是一个促进企业营销、市场开拓并为客户提供良好的交互服务系统,其位置相当重要。传统的质检方法需要质检人员通过人工测听的方式进行抽检;人工抽检方法工作量大且效率低,难以有效评价客服人员的服务质量。


随着人工智能技术的发展,语音和自然语音处理技术不断取得突破,采用智能化的方法对电话语音中的内容进行深层次的分析,可以有效的节约人力成本并提高工作效率。语音质检方案主要涉及语音关键词检索、音频对比、情感识别等核心技术。


1 语音关键词检索


1.1 语音识别声学模型


随着深度学习的兴起,深层神经网络也应用到了语音识别中的声学建模,通过深层神经网络模型替换 GMM-HMM 模型里的 GMM 模型,HMM 模型中的状态转移矩阵部分不变。DNN 通过在输入端进行扩帧,从而能够利用上下文信息,同时这种模型具有较强的非线性建模能力,但 DNN 的扩帧是有限的,所以它能够利用的上下文信息是有限的。针对这一问题提出了基于 RNN 的声学模型,RNN 能够更充分的利用历史信息进行声学模型建模。但是在 RNN 训练过程中会存在梯度消失和梯度膨胀的问题,梯度膨胀可以在训练过程中加一些约束条件解决,当梯度超过一定值以后设定一个固定值;针对梯度消失问题,比较有效的解决方法是将里面的 RNN 单元变成长短时记忆模型 LSTM,这种模型的缺点是会增加计算复杂度,这也是在构建声学模型时需要考虑的问题。CNN 是另一种比较主流的声学模型,这种模型中包含的参数较少,谷歌、微软、IBM 等企业均尝试使用非常深的 CNN 模型,其识别性能超过其它深层神经网络。


CTC 是一个训练准则,在传统的基于深度学习的声学模型输出中,每个 phone 可能包含十几桢甚至更多桢,因为它并不是一个尖峰,但是通过 CTC 训练会把它变成一个尖峰;CTC 可以将每一帧变成一个 blank 帧或者对应的建模单元(音素、音节等),而每个建模单元只需要对应几帧就可以了。在解码的时候可以降低对 black 桢的搜索宽度,这样可以显著的增加解码速度。减少解码帧有两种方法,一种是通过跳帧的方法,另一种在解码过程中动态调整 beam 值,特别是遇到空白桢的时候把并 beam 值减少。


1.2 基于语音识别的关键词检索


基于语音识别的关键词检索是将语音识别的结果构建成一个索引网络,然后把关键词从索引网络中找出来。从图 1 中可以看到,首先将语音数据进行识别处理,从里面提取索引构建索引网络,进行关键词检索的时候,我们会把关键词表在网络中进行搜索,找到概率最高的,输出其关键词匹配结果。

 


图1. 基于语音识别的关键词检索


构建检索网络是语音关键词检索的重要环节。如图 2 所示,在第一个时间段内(w1、w3、w6、w7),这句话被识别成了四个不同的词,语音识别只能给出一条路径,但在语音关键词检索网络中可以从四个结果中进行筛选。

 


图 2 构建检索网络示意图


确定关键词检索网络后,接下来进行的是关键词检索。关键词检索可以基于音节信息,首先将用户设定的关键词文本解析成音节序列,再从检索网络中找出匹配结果,相比直接对文本结果进行检索,这种方法的容错性更强,而且关键词检索中的声学模型可以是基于 CTC 的模型,因此,计算量更小,执行效率更高,更适用于语音质检这种海量数据检索的应用场景。


2 音频对比


音频比对是指从音频信号提取特征,通过特征进行比对的方法进行有害信息检索的方法。该方法的核心在于提取的特征值需要满足一定的要求,比如抗噪性、转换不变性、鲁棒性、快速性等特点,主要是为了满足同一音频能够在不同声道下进行准确检索。传统的 MFCC、FBANK 等声学特征已经不能满足音频比对任务的需求。图 3 是一个基于频谱最大值来建模的音频比对方法。在完成最大值点完成建模后,需要进行特征的构建。而特征构建是通过最大值点之间的距离来建模,例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后,就可以对两个不同音频进行检索,最大相似度的地方就是相似点,这种技术最适用于文本内容无关的录音片段的检索。

 


图 3. 基于频谱最大值建模的音频比对方法


3 情感识别


语音是人类交际的最重要的工具之一。人们在进行自然口语对话时,不仅传递声音,更重要的是传递说话人的情感状态、态度、意图等。一般的情感语音识别系统框图如图 4 所示。根据情感模型的不同,情感语音识别主要分为离散情感识别和连续情感语音识别。

 


图 4. 语音情感识别典型系统框图


离散情感识别是一个典型的模式分类问题,各种传统的分类器均被广泛应用于语音情感识别系统。例如隐马尔科夫模型、高斯混合模型、支持向量机,人工神经网络等。维度情感识别一般被建模为回归预测问题。在机器学习算法层面,根据是否考虑序列上下文信息可将现有方法分为静态机器学习算法和动态机器学习算法。在静态机器学习算法中,AdaBoost、高斯混合模型、人工神经网络、支持向量回归等广泛应用于维度情感识别中序列单元的回归问题。鉴于维度情感的序列标注情况,序列上下文信息有助于提高情感识别性能,因而更多的工作集中于动态机器学习算法。随着深度学习技术的发展,基于 LSTM-RNN 的系统便被更加广泛的应用于维度情感识别领域。


情感识别解决方案通过分析不同情感状态和语音声学参数的关联关系,抽取出鲁棒声学特征参数,综合考虑不同人对同一段语音的情感感知结果,建立语音情感识别模型。为了提高语音情感识别的鲁棒性,采用非线性建模方法建立情感语音分析模型,有效的解决了噪声环境下情感语音分析问题。针对情感识别中的时序建模问题,采用一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层实现短粒度的时序建模。在决策层实现更长粒度的时序建模,并与特征层的时序建模实现相互补充。通过上述改进,有效的提高了语音情感识别的准确率,可以对通话者的情感状态进行动态的捕获和跟踪。


极限元智能科技在智能语音、计算机视觉、自然语言处理、大数据分析等技术领域有多年技术积累,推出了一些系列云端和终端的跨平台 AI 技术解决方案,产品和服务广泛应用在教育、安全、交通、泛娱乐等多个行业。其中,成熟的音频检测技术落地场景更是涉及到反电信诈骗、公安技侦、互联网音视频有害信息检测、呼叫中心录音质检等多个方面。 


]]> 原文: http://ift.tt/2A1RBT5
RSS Feed

机器知心

IFTTT

入职仅一年,套现5000多万后背刺马斯克搬走 Grok 核心代码库!-InfoQ 每周精要894期

「每周精要」 NO. 894 2025/09/06 头条 HEADLINE 入职仅一年,套现 5000 多万搬走 Grok 核心代码库! 业内专家:拥有菜谱不等于能做出同样的菜 精选 SELECTED AI 公司创始人现跑路迪拜! 80% 收入烧广告、假账骗投资人,微...