2017年10月3日星期二

从零开始:如何使用LSTM预测汇率变化趋势

在这篇文章中,我们将通过 LSTM 讨论时序预测模型,数据科学家 Neelabh Pant 也会为大家描述他利用循环神经网络预测货币兑换汇率的经验。


作为一个在美国生活的印度人,Neelabh 和家乡之间存在恒定的金钱流动。如果在市场中,美元更加强势,则印度卢比相对贬值,因此从印度购买 1 美元需要更多的卢比。如果美元相对弱势,则购买 1 美元需要的卢比会更少。


如果可以预测第二天的美元的价值,那么可以以此为参考做出更好的决策,最小化风险并最大化收益。了解到神经网络的强大,尤其是循环神经网络,Neelabh 想到了预测美元和卢比的兑换汇率的点子。


通常情况下,预测汇率有很多方法,例如:


  • 购买力平价(PPP)
  • 相对经济实力法
  • 计量经济模型
  • 时间序列模型


在这篇文章中,我们将告诉你如何利用时序分析和机器学习时序模型来预测未来的兑换汇率变化。


序列问题


我们从序列问题的讨论开始,最简单的序列机器学习问题是「一对一」问题。



One to One


在这种问题中,向模型输入一个数据或一个向量,模型会对输入生成一个预测结果。无论是回归、分类还是通过卷积网络的图像分类都属于这个类型。通过扩展这种模式,我们可以将其改造成利用过去的输入和输出进行学习的模型。


一对多问题是一对一问题的扩展,因为一对一问题的模型只有一个输入和输出。而现在模型的输出再馈送到模型作为新的输入,这样模型就会生成多个输出,下面我们将了解一对多为什么又称为循环神经网络。



One to Many


由于连接方式构成有向循环,循环神经网络可以处理序列问题。就是说,循环神经网络可以在每一次的迭代中保持网络形态不变的前提下,将输出作为下一步的输入。从编程的角度上说就像是利用确定的输入和一些隐藏变量,在固定不变的程序上保持运行。最简单的循环神经网络,将时间轴展开之后,可以看成一个全连接神经网络。



RNN Unrolled Time




在这个单变量的例子中,只包括了两个权重。权重 u 和当前输入 x_t 相乘,权重 w 和上一步输出 y_t-1 相乘。这个利用过去输出和当前输入的公式很像指数加权移动平均法(exponential weighted moving average,EWMA)。


只要将网络单元一个接一个堆叠起来,就可以轻易建立一个深度循环神经网络。简单的循环神经网络可以很好的处理短期记忆模型,但是在长时依赖项中,模型将会遇到根本的困难。


长短期记忆神经网络(Long Short-Term Neural Network)


之前说过,简单的循环神经网络无法捕捉长期依赖序列中的特征,是一个根本的困难。这个问题很重要,因为我们希望以后我们的 RNN 可以分析文本和回答问题,在这些任务中很自然的需要分析长序列的文字。


90 年代末,Sepp Hochreiter 和 Jurgen Schmidhuber 提出了 LSTM,这种模型对长期依赖性的处理要比 RNN、隐马尔可夫模型和其他序列学习方法要优秀地多。



LSTM架构


LSTM 模型将各种运算集合在一个单元中,LSTM 有一个内部状态变量,并且该状态变量可以从一个单元传递到另一个 LSTM 单元中,同时通过门运算进行修改。


1. 遗忘门




这是一个 Sigmoid 层,以 t-1 时刻的输出和 t 时刻的当前输入为参量串接到一个单张量中,加上线性变换,最后用 sigmoid 函数变换。由于 sigmoid 函数的性质,这个门的值被限定在 0 和 1 之间,该值与内态的值相乘,这也它会被叫做忘记门的原因。如果 ft=0 那么过去的内态将被忽略,如果 ft=1 那么内态将被完整的传递。


2. 输入门




输入门以过去的输出和当前输入为参量并馈送到一个 sigmoid 层。同样,这个门的输出值也是在 0 和 1 之间,输入门的值将和候选层的输出值相乘。




这个层对当前输入和过去输出应用了双曲正切函数作为变换(激活函数),结果将返回一个与内部状态相加的候选向量。


内态通过这个规则不断更新:




过去的状态和遗忘门的值相乘,然后加上输出门所给出新的候选状态。


3. 输出门




这个门控制多大比率的内部状态将被传递到输出,这和其它门的工作方式类似。


以上描述的三个门有互相独立的权重和偏置,因此,网络将分别学会,保持过去输出的概率、保持当前输入的概率以及将内态传递给输出的概率。


在一个循环神经网络中,不仅需要输入数据,还需要输入网络过去的状态。举例来说,如果我喊「嘿!我开车的时候发生了不得了的事!」这时你的大脑的一部分将把这句话分解成,「噢,Neelabh 正在给我讲一个故事,这个故事的主人公是 Neelabh 并且故事发生在路上。」然后,你需要将我刚才告诉你的话记住一部分。在接下来的故事中,你都必须随时保留部分听过的话的印象,才能逐渐明白整个故事。


另一个例子是关于是关于视频加工的,同样需要用到循环神经网络。大多数情况下,一部电影中,当前画面所描述的内容相当依赖于上一个画面的内容。经过一段时间的训练后,循环神经网络将学会保留过去画面的哪些部分和保留的比率,以及保留当前画面的多少信息,丰富的结构使其拥有比简单前馈神经网络强大得多的性能。


时间序列预测


RNN 的强大功能令我印象深刻,因此我决定使用 RNN 预测美元和卢比的兑换汇率。这个计划中使用的数据集是从 1980 年 1 月 2 日到 2017 年 8 月 10 日的兑换汇率的数据。稍后我将给出链接供你们下载和实验。



表1.数据集样本


数据集展示了 1 美元相对卢比的价值,我们一共拥有总数目为 13 730 条从 1980 年 1 月 2 日到 2017 年 8 月 10 日的数据记录。



美元对印度卢比汇率变化曲线


在这段期间,1 美元的卢比价值总体在上升。不难看到,在 2007-2008 年之间,由于经济大衰退,美国经济经历了一次重大的危机,这个图描绘了从 20 世纪末期到 21 世纪早期世界市场经济衰退的轨迹。


这段期间内,全世界的经济发展状况不是很好,特别是北美和欧洲(包括俄罗斯),都陷入了明显的衰退。不过,与此同时,很多新兴的经济体受到的冲击要小得多,特别是中国和印度,在这场灾难中,他们的经济依然得到了大幅增长。


训练集和测试集的分割


现在,为了训练模型,我们需要将数据集分成测试和训练集。在做时间序列时,以明确的日期为界限将数据集分为训练和测试两部分是很重要的。毕竟,你不会希望你的测试数据的时间排在你的训练数据之前。


在我们的实验中将定义一个日期,比如 2010 年 1 月 1 日,作为分界日期。训练数据的日期从 1980 年 1 月 2 日到 2009 年 12 月 31 日,包括大约 11 000 个数据点。


测试数据的日期从 2010 年 1 月 1 日到 2017 年 8 月 10 日,包括大约 2700 个数据点。



训练-测试


接下来要将数据集归一化,即将训练数据转换格式并将测试数据按同样的格式映射到训练数据上,这样可以避免假定知道测试数据的规模带来的影响。归一化或者数据转换意味着新变量的定义域将限定在 0 和 1 之间。


神经网络模型


一个全连接模型即将一个输入变换成一个输出的简单神经网络,它的构建就如同简单的回归模型那样通过前一天的价格预测第二天的价格。


我们以均方差作为损失函数,并使用随机梯度下降优化算法。经过足够多代的训练,将能开始寻找足够好的局部最优解。下方是全连接层性质的总结。



全连接层


经过 200 个 epoch 的训练,或者 eraly_callbacks 的出现(无论哪个先出现),这个模型就开始尝试学习数据的模式和行为。由于我们区分了训练集和测试集,现在我们可以预测测试数据集并和真实值比较。



真值(蓝色)与预测值(橙色)对比


正如你所看到的,模型的表现并不好。基本上它只是重复过去的值,只有轻微的变化。全连接网络无法从单一的过去值预测未来的值。接下来我们尝试循环神经网络,看看它工作的如何。


长短期记忆


我们使用的周期循环模型是一个单层序列模型,层内使用 6 个 LSTM 节点,输入的维度设为(1,1),即网络的单个输入只含一个特征值。



LSTM模型


最后一层是一个密集层,损失函数为均方误差函数,并且采用随机梯度下降作为优化器。我们将模型训练了 200 个 epoch,并采用了中断训练回调。模型的性质总结在上方展示。



LSTM预测


这个模型几乎学会了将这些年的数据完全重现,并且在一个简单的前馈神经网络的辅助下,不出现延迟。不过,它仍然低估了一些确定的观察值,模型仍然有很大的改进空间。


模型的改进


这个模型还可以做很多的改进,通过改进优化器的方法以改变模型结构的方式可以有很多种。还有另一种很重要的改进方法是来自数据流管理系统的滑动时间窗口法。


这种方法源于只有最近的数据才是最重要的观点,即可以从一年时长的数据中尝试预测下一年第一天的值。就从数据集中获取重要模式并高度依赖于过去观察值而言,滑动时间窗口法是非常有用的。


你们也可以按自己的方式尝试去改进模型,看看模型会如何应答这些变化。


数据集


我已经把数据集公布在 github 项目中,请随意下载,尽情使用吧。


GitHub 地址:http://ift.tt/2gKcZEp


有用的学习资源


我个人一直追随着几位我最喜欢的数据科学家,比如 Kirill Eremenko,Jose Portilla,Dan Van Boxel(更知名的是 Dan Does Data 这个名号),还有很多。他们大部分都有自己的博客并在上面讨论今天主题的各方面,如 RNN,CNN,LSTM,甚至还有最近出现的新技术,神经图灵机。


尽可能去跟进各种人工智能大会的新闻。顺便提一下,有兴趣的可以关注,Kirill Eremenko 即将带着他优秀的队伍在 San Diego 作关于机器学习,神经网络和数据科学的报告。


结论


通过学习过去行为的主要特征并区分哪些特征才是对预测未来所需,LSTM 模型确实是很强大的工具。已经有几种应用管法广泛使用了 LSTM,比如语音识别、作曲、手写字识别,甚至还有我最近研究中的对人体移动和交通运输的预测实验。


对于我们而言,LSTM 就是一个拥有自己的记忆并能像天才一样做出精准决策的模型。

]]> 原文: http://ift.tt/2xSuGtz
RSS Feed

机器知心

IFTTT

迁移学习 + BPE,改进低资源语言的神经翻译结果

在本论文中,作者结合迁移学习与 BPE 方法,使用低资源的相关语言的平行数据改进同样低资源语言的神经机器翻译结果。


论文:Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation




链接:http://ift.tt/2g8BDiE


摘要:我们提出了一种简单的方法,对一种低资源的语言对的神经机器翻译结果,使用同样低资源的相关语言的平行数据帮助改进。这种方法主要基于 Zoph 等人提出的迁移方法,但他们的方法忽略了源词汇重复,我们的方法对此进行了开拓。首先,我们使用 BPE(字节对编码)的方式分离单词来增加单词重复。然后,在第一种语言对上训练模型,将其参数(包括源词嵌入)迁移到另一个模型,再在第二种语言对上继续训练。我们的实验证明,虽然 BPE 方法和迁移学习单独用的时候表现不一致,但一起用时能提高 1.8 个 BLEU 值。



表 1:土耳其语与乌兹别克语中拥有同样词根的单词示例



表 2:训练数据中的 token 与句子的数量



图 1:不同设置下的 Tokenized dev BLEU 得分。注意:baseline = 只训练子模型;transfer = 先训练父模型,再训练子模型;+freeze = 在子模型中 freeze 目标词嵌入



表 4:在父模型中出现的源词嵌入占子模型源词嵌入的比例

]]> 原文: http://ift.tt/2g8FGLO
RSS Feed

机器知心

IFTTT

2017年10月2日星期一

大脑海马体藏有学习本质的秘密,这是DeepMind新发现 | 附论文

维金 编译自 DeepMind博客等量子位 出品 | 公众号 QbitAI

DeepMind在神经科学和人工智能结合的探索上又有新进展。

海马体"预测地图"

有没有想过这些问题:你是如何选择的上班路线,你是如何决定搬家去哪里,下棋的时候你是怎么决定走出那一步?

所有这些场景中,其实都存在一个估计:你的决策在未来能获得多大的回报。

这很微妙,你考虑的未来越远,可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题,而在人工智能研究中,开发能有效预测未来回报的系统也是个关注重点。

在《自然神经科学》(Nature Neuroscience)上新发布的论文中,DeepMind将神经科学知识应用于机器学习中的数学理论,从而带来关于学习和记忆本质的新见解。

具体来说,DeepMind认为,大脑中的一块区域,即海马体,对这个问题提供了独特的解决方案。海马体运用被DeepMind称作"预测地图"的机制来高度总结未来的事件。

传统观点认为,海马体只反映动物当前的状态,尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持,因为在啮齿动物的海马体中发现了"位置细胞":当动物处于特定位置时,这些细胞将会被激活。

(量子位注:2014年诺贝尔生理或医学奖,被授予了美英双国籍的神经生物学家John O'Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇,以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元,这些神经元构成了一个精巧的定位系统,使人们能够认知自己在空间中所处的位置,并帮助人们进行导航。)

尽管这种理论可以解释许多神经生理学发现,但无法完全解释,为何海马体也参与了其他功能,例如记忆、关系推理和决策。

DeepMind的新理论认为,在计算未来最大回报的过程中,思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。

DeepMind的关键思路是,为了估计未来回报,人工智能agent(智能体)必须首先估计,在每种状态下预计能获得多少立即回报,随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报,agent可以得出对未来回报的估计。

类似的,DeepMind认为海马体代表了全部状态,即海马体预测到的未来所有状态。

例如,如果你即将下班(即当前状态),那么海马体会做出这样的预测:你很快就会动身,前往学校接孩子,最后回到距离更远的家中。

通过判断每个当前状态与预期后续状态的关系,海马体可以对未来事件做出高度的总结,这种行为的学名是"后续表现"。DeepMind认为,这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境,同时不必对未来展开计算开销极高的模拟。

这种思路结合了两种算法的优势。这两种算法已在强化学习的研究中很知名,同时也被认为存在于人类和啮齿动物的大脑中。"基于模型"的算法能学习环境模型,随后通过模拟得出对未来回报的估计。"无模型"算法则直接从环境经验中得出对未来回报的估计。基于模型的算法很灵活,但有着很大的计算开销。无模型算法计算开销较小,但不太灵活。

DeepMind理论中的算法结合了基于模型算法的灵活性,以及无模型算法的计算效率。由于计算过程是简单的加权求和,因此计算过程非常高效,类似于无模型算法。与此同时,通过区分回报预期和状态预期(即预测地图),算法可以在维持状态预期不变的情况下刷新回报预期,从而快速适应回报的改变。

DeepMind计划在未来工作中进一步检验这种理论。由于预测地图理论可以被转换为多种神经网络架构,因此DeepMind希望探索这种学习策略如何推动灵活快速的规划。

在更普遍的意义上,未来的一项主要任务是研究大脑如何整合不同类型的学习方式。尽管DeepMind用这个模型去替代大脑中基于模型和无模型的学习方式,但更贴近现实的情况是,在学习和规划过程中,大脑同时展开了多种类型的学习。

理解这些学习算法如何配合运转是理解人类和动物大脑的重要一步,也将指导DeepMind设计复杂、多面的人工智能。

只有了解大脑,才能开发出更强的AI

因为创造出AlphaGo而名满天下的DeepMind,一直在思考人工智能如何达到下个高度。

在DeepMind创始人哈萨比斯看来,答案就在于人类中间,或者说人类的身体中。他一直认为,人工智能需要与神经科学重新建立联系。只有更多地了解自然智能,我们才能真正理解(并开发出)人工智能。

下面这段,摘自自哈萨比斯7月的一次访谈。

问:你以往曾讨论过,DeepMind最大的目标之一是开发人工智能,促进更多的科学发现,使其成为提高人类创造力的工具。神经科学如何帮助你达到这个目标?

哈萨比斯:实际上有两种方式。其中之一是将神经科学作为算法和架构理念的灵感来源。关于开发通用智能的可行性,人类大脑是唯一现存的证明。因此我们认为,有必要付诸努力,尝试并理解这些能力是如何形成的。随后我们可以看看,是否有些办法,将其转移至机器学习和人工智能。

这也是我在博士阶段研究神经科学的原因:关注大脑的记忆和想象力,理解大脑中的哪些区域参与其中,存在什么样的机制,随后使用这些知识帮助我们思考,如何在人工智能系统中实现同样的功能。

我们试图理解的另一方面是,智能究竟是什么,这也包括自然智能,人类的智力。因此我认为,可能会出现反向的帮助。利用可以完成有趣任务的人工智能算法,我们可以了解,应该如何看待大脑本身。我们可以使用这些人工智能系统作为模型,了解大脑中正在发生什么。

问:你提到大脑的想象力、预测未来的能力,是改进AI的关键功能。能不能举个例子,说明AI怎么才能拥有这些能力?

哈萨比斯:这些高级的想法目前还在很基础的阶段。先有记忆,然后再有想象。大脑里有不同的存储系统。比方说短期工作记忆,可以用来记住电话号码这种不长的信息。另外还有场景记忆,这是一种长期记忆,甚至你在睡觉的时候都能从中学习经验。

这只是一个想法,不同的记忆存储系统,对AI来说很有价值。传统的神经网络没有太多的记忆,只专注于当时当刻。为了改变这个情况,人类发明了神经图灵机,让神经网络可以连接并使用一个很大的扩展存储器。这是一个神经科学启发的想法。

然后我们来说想象,这是人类和一些动物,对世界的生成模型,这种模型被用来在现实世界行动之前,评估和规划将会发生什么,以及可能产生的后果。

想象力是一个非常强大的规划工具。你需要建立一个世界的模型,然后使用这个模型去预测,还要及时向前推进。所以,当我们开始拆解想象力的构成时,就能获得一些关于构建想象力所需功能的线索。

论文&下载

DeepMind最新发表在《自然神经科学》的这篇论文,去年12月提交,今年8月29日被接受,10月2日正式在线发布。

摘要

海马体的主要功能一直被认为是"认知地图",即位置细胞对空间几何表示进行了编码。然而,位置细胞中的预测编码、奖励敏感性和策略依赖,表明这里不仅仅解决空间问题。

我们从强化学习的角度来看待这个问题:什么样的空间表示能最大化未来的奖励?我们使用预测表示的形式来给出答案。这种表征捕获了落在传统认知地图之外的许多位置细胞反应。更进一步,我们认为内嗅格点细胞为预测表示进行低维基集编码,用于抑制预测中的噪声并提取分层规划的多尺度结构。

《自然神经科学》的订阅用户,可以前往下面这个网址查看论文:

http://ift.tt/2yTSpd9

另外,在量子位微信公众号(QbitAI)对话界面,回复"海马体"三个字。就能下载查看这篇论文。

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2xMYURh
RSS Feed

RSS5

IFTTT

大脑海马体藏有学习本质的秘密,这是DeepMind新发现 | 附论文

维金 编译自 DeepMind博客等量子位 出品 | 公众号 QbitAI

DeepMind在神经科学和人工智能结合的探索上又有新进展。

海马体"预测地图"

有没有想过这些问题:你是如何选择的上班路线,你是如何决定搬家去哪里,下棋的时候你是怎么决定走出那一步?

所有这些场景中,其实都存在一个估计:你的决策在未来能获得多大的回报。

这很微妙,你考虑的未来越远,可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题,而在人工智能研究中,开发能有效预测未来回报的系统也是个关注重点。

在《自然神经科学》(Nature Neuroscience)上新发布的论文中,DeepMind将神经科学知识应用于机器学习中的数学理论,从而带来关于学习和记忆本质的新见解。

具体来说,DeepMind认为,大脑中的一块区域,即海马体,对这个问题提供了独特的解决方案。海马体运用被DeepMind称作"预测地图"的机制来高度总结未来的事件。

传统观点认为,海马体只反映动物当前的状态,尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持,因为在啮齿动物的海马体中发现了"位置细胞":当动物处于特定位置时,这些细胞将会被激活。

(量子位注:2014年诺贝尔生理或医学奖,被授予了美英双国籍的神经生物学家John O'Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇,以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元,这些神经元构成了一个精巧的定位系统,使人们能够认知自己在空间中所处的位置,并帮助人们进行导航。)

尽管这种理论可以解释许多神经生理学发现,但无法完全解释,为何海马体也参与了其他功能,例如记忆、关系推理和决策。

DeepMind的新理论认为,在计算未来最大回报的过程中,思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。

DeepMind的关键思路是,为了估计未来回报,人工智能agent(智能体)必须首先估计,在每种状态下预计能获得多少立即回报,随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报,agent可以得出对未来回报的估计。

类似的,DeepMind认为海马体代表了全部状态,即海马体预测到的未来所有状态。

例如,如果你即将下班(即当前状态),那么海马体会做出这样的预测:你很快就会动身,前往学校接孩子,最后回到距离更远的家中。

通过判断每个当前状态与预期后续状态的关系,海马体可以对未来事件做出高度的总结,这种行为的学名是"后续表现"。DeepMind认为,这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境,同时不必对未来展开计算开销极高的模拟。

这种思路结合了两种算法的优势。这两种算法已在强化学习的研究中很知名,同时也被认为存在于人类和啮齿动物的大脑中。"基于模型"的算法能学习环境模型,随后通过模拟得出对未来回报的估计。"无模型"算法则直接从环境经验中得出对未来回报的估计。基于模型的算法很灵活,但有着很大的计算开销。无模型算法计算开销较小,但不太灵活。

DeepMind理论中的算法结合了基于模型算法的灵活性,以及无模型算法的计算效率。由于计算过程是简单的加权求和,因此计算过程非常高效,类似于无模型算法。与此同时,通过区分回报预期和状态预期(即预测地图),算法可以在维持状态预期不变的情况下刷新回报预期,从而快速适应回报的改变。

DeepMind计划在未来工作中进一步检验这种理论。由于预测地图理论可以被转换为多种神经网络架构,因此DeepMind希望探索这种学习策略如何推动灵活快速的规划。

在更普遍的意义上,未来的一项主要任务是研究大脑如何整合不同类型的学习方式。尽管DeepMind用这个模型去替代大脑中基于模型和无模型的学习方式,但更贴近现实的情况是,在学习和规划过程中,大脑同时展开了多种类型的学习。

理解这些学习算法如何配合运转是理解人类和动物大脑的重要一步,也将指导DeepMind设计复杂、多面的人工智能。

只有了解大脑,才能开发出更强的AI

因为创造出AlphaGo而名满天下的DeepMind,一直在思考人工智能如何达到下个高度。

在DeepMind创始人哈萨比斯看来,答案就在于人类中间,或者说人类的身体中。他一直认为,人工智能需要与神经科学重新建立联系。只有更多地了解自然智能,我们才能真正理解(并开发出)人工智能。

下面这段,摘自自哈萨比斯7月的一次访谈。

问:你以往曾讨论过,DeepMind最大的目标之一是开发人工智能,促进更多的科学发现,使其成为提高人类创造力的工具。神经科学如何帮助你达到这个目标?

哈萨比斯:实际上有两种方式。其中之一是将神经科学作为算法和架构理念的灵感来源。关于开发通用智能的可行性,人类大脑是唯一现存的证明。因此我们认为,有必要付诸努力,尝试并理解这些能力是如何形成的。随后我们可以看看,是否有些办法,将其转移至机器学习和人工智能。

这也是我在博士阶段研究神经科学的原因:关注大脑的记忆和想象力,理解大脑中的哪些区域参与其中,存在什么样的机制,随后使用这些知识帮助我们思考,如何在人工智能系统中实现同样的功能。

我们试图理解的另一方面是,智能究竟是什么,这也包括自然智能,人类的智力。因此我认为,可能会出现反向的帮助。利用可以完成有趣任务的人工智能算法,我们可以了解,应该如何看待大脑本身。我们可以使用这些人工智能系统作为模型,了解大脑中正在发生什么。

问:你提到大脑的想象力、预测未来的能力,是改进AI的关键功能。能不能举个例子,说明AI怎么才能拥有这些能力?

哈萨比斯:这些高级的想法目前还在很基础的阶段。先有记忆,然后再有想象。大脑里有不同的存储系统。比方说短期工作记忆,可以用来记住电话号码这种不长的信息。另外还有场景记忆,这是一种长期记忆,甚至你在睡觉的时候都能从中学习经验。

这只是一个想法,不同的记忆存储系统,对AI来说很有价值。传统的神经网络没有太多的记忆,只专注于当时当刻。为了改变这个情况,人类发明了神经图灵机,让神经网络可以连接并使用一个很大的扩展存储器。这是一个神经科学启发的想法。

然后我们来说想象,这是人类和一些动物,对世界的生成模型,这种模型被用来在现实世界行动之前,评估和规划将会发生什么,以及可能产生的后果。

想象力是一个非常强大的规划工具。你需要建立一个世界的模型,然后使用这个模型去预测,还要及时向前推进。所以,当我们开始拆解想象力的构成时,就能获得一些关于构建想象力所需功能的线索。

论文&下载

DeepMind最新发表在《自然神经科学》的这篇论文,去年12月提交,今年8月29日被接受,10月2日正式在线发布。

摘要

海马体的主要功能一直被认为是"认知地图",即位置细胞对空间几何表示进行了编码。然而,位置细胞中的预测编码、奖励敏感性和策略依赖,表明这里不仅仅解决空间问题。

我们从强化学习的角度来看待这个问题:什么样的空间表示能最大化未来的奖励?我们使用预测表示的形式来给出答案。这种表征捕获了落在传统认知地图之外的许多位置细胞反应。更进一步,我们认为内嗅格点细胞为预测表示进行低维基集编码,用于抑制预测中的噪声并提取分层规划的多尺度结构。

《自然神经科学》的订阅用户,可以前往下面这个网址查看论文:

http://ift.tt/2yTSpd9

另外,在量子位微信公众号(QbitAI)对话界面,回复"海马体"三个字。就能下载查看这篇论文。

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复"招聘"两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态



via 量子位 - 知乎专栏 http://ift.tt/2xMYURh
RSS Feed

RSS5

IFTTT

DeepMind发表Nature论文:「预测地图」海马体催生强化学习新算法

DeepMind 近日在《Nature Neuroscience》上发布最新研究,认为海马体能够通过预期的后续状态来展示每一个当前状态,从而传输对未来事件的细致总结。这种特殊形式的预测地图使大脑快速适应奖励不同的环境,而无需运行对未来的模拟。受此启发,DeepMind 提出将强化学习中基于模型的算法和无模型算法结合起来,既保证计算成本低廉,又能快速适应奖励变化。DeepMind 表示,预测地图理论可以转换成神经网络架构。


想一下你如何选择上班路线、搬家地点,甚至游戏里下一步的操作。所有这些场景都要求你评估决策可能带来的未来奖励。这很复杂,因为当一个人越来越深入未来,可能的场景数量会大大增加。理解我们如何做一件事是神经科学领域主要的研究问题,而构建有效预测奖励的系统是 AI 研究的重点。


我们在最近发表在《自然-神经科学》(Nature Neuroscience)的论文中,从神经科学的角度看待长期存在的数学理论(从机器学习到为学习和记忆的本质提供新见解)。具体来说,我们提出海马体使用「预测地图」细致地总结未来事件,这为解决该问题提供了独特的方案。


传统观点认为海马体只是呈现动物的当前状态,尤其是在空间任务中,如走迷宫。这个观点在发现啮齿动物海马体中的「位置细胞」后得到了广泛传播,位置细胞在动物处于特定位置时会有选择性地放电。尽管该理论可以解释很多神经生理学的研究发现,但是它无法解释为什么海马体还参与其他功能,如记忆、关系推理和决策。




在老鼠探索方形房间时,记录下来的海马体单个位置细胞的活动。左图中,每一个空间位置展示了神经元的平均活动或「放电率」。右图中,黑线指老鼠去过的地方,红点指细胞每次活跃或「放电」时老鼠的位置。该细胞是典型的位置细胞,它倾向于在靠近它喜欢的位置(房间右上角)时放电。


我们的新理论认为导航是最大化未来奖励的计算规划这一更普遍问题的一部分。这一观点来自强化学习,聚焦于通过试错进行学习的系统。我们得出的关键计算方法是:为评估未来奖励,智能体必须首先评估它对每个状态期望的直接奖励,然后用未来进入每个状态的频率对期望奖励进行加权。智能体总结所有可能状态的加权奖励,从而获取对未来奖励的评估。


类似地,我们认为海马体用预测到的未来状态展示每一种情况或状态。比如,如果你要下班(当前状态),海马体会预测你可能很快就要乘车下班、到学校接孩子,或者更长远一点,到家了。海马体通过进行这些预测来展示你的状态。海马体通过预期的后续状态来展示每一个当前状态,从而传输了未来事件的细致总结,正式说法叫作「后续表征」(successor representation)。我们认为这种特殊形式的预测地图使大脑快速适应奖励不同的环境,而无需运行对未来的模拟,这种模拟往往代价较高。


钢琴家状态的后续表征应该同时展现当前弹奏的琴键和之后的音符。


该方法将强化学习中广为人知的两种算法的力量连接起来,同时人们认为这两种算法在人类和啮齿动物中都存在。「基于模型」(model-based)的算法学习环境模型,然后模拟以输出对未来奖励的评估;而「无模型」(model-free)算法直接从在环境中的经验来学习未来奖励评估。基于模型的算法比较灵活但是计算成本高昂,而无模型算法计算成本低廉但不够灵活。


我们理论中的新算法将基于模型的算法的灵活性和无模型算法的高效性结合起来。由于计算只是简单的加权总和,因此该算法的计算成本像无模型算法那样低廉。同时,通过分离奖励期望和状态期望(预测地图),该算法可以通过简单地更新奖励期望、保持状态期望不变来快速适应奖励变化(更多细节见 DeepMind 之前的论文《The successor representation in human reinforcement learning》)。


我们计划在未来的工作中进一步测试该理论。预测地图理论可以转换成神经网络架构,因此我们想探索该学习策略能够多大程度上提高生物信息学中灵活、快速的规划。


未来主要的任务是研究大脑如何整合不同类型的学习。尽管我们将该模型作为大脑中基于模型和无模型学习的替代方法,但一个更现实的观点是:大脑在学习和规划过程中同时协调多种学习。理解如何结合这些学习算法是通向理解人类和动物大脑的重要一步,并且能够为设计同样复杂、多层次的 AI 提供重要思路。


论文:The hippocampus as a predictive map




论文链接:http://ift.tt/2fFijJb


摘要:由于「位置细胞(place cell)编码空间的几何表征」这一观点的流行,海马体长期被喻为认知地图。然而,位置细胞中预测编码、奖励敏感度和策略依赖的证据表明位置细胞并不纯粹是空间表征。我们从强化学习的角度出发试图解开这一谜题:何种空间表征最利于最大化未来奖励?结果表明答案是预测表征。预测表征获取位置细胞反应的诸多方面,这些反应与传统认知地图不同。此外,我们认为内嗅网格细胞(entorhinal grid cell)编码一个低维度基组用于预测表征,有效抑制预测中的噪声,并提取用于分层规划的多尺度结构。


]]> 原文: http://ift.tt/2xU0IXD
RSS Feed

机器知心

IFTTT

LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值 -InfoQ 每周精要No.899期

「每周精要」 NO. 899 2025/10/25 头条 HEADLINE LangChain 彻底重写:从开源副业到独角兽,一次"核心迁移"干到 12.5 亿估值 精选 SELECTED 1000 行代码手搓 OpenAI gpt-oss 推理引...