海馬の機能と脳全体の計算論的モデルとの関係についての考察:モデルベース強化学習、メモ化、BPTT

海馬の「エピソード記憶」という機能を、
脳全体の計算論的モデルにどう取り込むのかが自分にとっての
大きな問題の1つでしたが、
だいぶん解決の糸口が見えてきた気がします。

以下、取り急ぎのメモです。間違いがあったらご指摘ください。


強化学習の研究者や、大脳基底核の計算論的神経科学研究者が、
「モデルベース強化学習」という言葉を使うのをよく聞く。
モデルフリーとモデルベースの違い - Togetterまとめ

モデルベース強化学習とは、外界のモデルを学習する強化学習の手法らしい。
意思決定に必要な計算時間は増えるが、
学習に必要なエピソードの経験回数は減るらしい。

従来のモデルフリー強化学習は、状態 s のときに行動 a をとったときの
価値 Q(s,a) を学習し、それに基づいて意思決定を行う。

一方モデルベース強化学習では、それに加え、
外界の状態が s のときに行動 a をとったら外界の状態が s' になる、
という「外界の状態変化のモデル」も別途学習するものらしい。

もし外界のモデルが正しく獲得できていれば、
遠い将来までのあらゆる行動の組み合わせを
すべてシミュレーションしてみることで、
その時点での最適な行動を選択できる。

計算論的神経科学研究者たちは、
脳もモデルベース強化学習をやっていると考え始めている。
http://www.itn.brain.riken.jp/05_publication/J_technicalreports/14_BSI_ITN_TechReport_No%2014-01


モデルベース強化学習は、
人工知能研究の2つの大きな流れである、論理的推論と統計的機械学習を
結びつける枠組みと考えることもできるのではないか。
その発展は、汎用人工知能実現のブレークスルーの1つになると思う。

SLAMの機能(ナビゲーション)も
モデルベース強化学習という枠組みの中で表現可能だろう。


ところで、最適な行動を得るためのシミュレーションを、
行動の毎ステップごとにやっていては、計算時間がかかりすぎる。

それを高速化する簡単な方法がある。メモ化という手法を用いればよい。
メモ化 - Wikipedia

状態 s のときに行動 a をとるとその先で失敗するとか成功するとかを
一度計算し、結果を覚えておいて、あとで再利用すればよい。
例えばシミュレーション中、
ゴールにたどり着けないと分かっている状態に行き着いたら、
その先の探索は打ち切ることができるので、計算時間が減る。

脳にメモ化の機構があるかというと、ぴったりのものがある。
それが海馬。

人間が行動計画を立てた後、どういう機構でその計画通りに行動を遂行できるのか
ずっと悩んでいたのだが、
海馬にメモした情報を参照しながら遂行していると考えると、納得がいく。


海馬のエピソード記憶は、もう1つの別の機構、
時系列データの学習のためにも使われている可能性があると思う。
時系列データを学習するモデルとしてRNNやHMMがある。
どちらのモデルも、学習するときには、
過去から現在にいたるまでのすべての観測データと整合性を持つように
モデルを修正する。
RNNではBPTT、HMMでは forward-backward アルゴリズムが使われる。
(なお、RNNに関しては、時間をさかのぼる必要のないアルゴリズムも存在する。
RTRL法


生物にとってはBPTTのような時間をさかのぼる学習則は素直には実現しにくい。
入力データと脳の内部状態は時間とともに次々に更新されていくから。
しかし、過去の入力データと脳の内部状態の一部は、
海馬にエピソード記憶として蓄えられる。
脳はこの情報を時系列データのモデルの学習を近似的に実行するために
使っているのではないか。

例えば人間は目の前で予想とは異なる事態が起きた時、
頭の中で過去にさかのぼって、どこでどう思い違いをしたのかを反省する。
また、ラットで後悔しているかのような神経活動が観測されている。
ニュース - 動物 - ラットも誤った選択を後悔する? - ナショナルジオグラフィック 公式日本語サイト(ナショジオ)

計算論の観点でいえば、反省や後悔は、
外界の状態変化や自分の意思決定のモデルを
近似的に修正していると考えることができるのではないか。


上に書いた、エピソード記憶とメモ化の関係、エピソード記憶とBPTTの関係の
両方に共通する特徴がある。
どちらにおいてもエピソード記憶は、
Marr の3つのレベルの中の「計算論のレベル」の概念ではなく、
「表現とアルゴリズムのレベル」の概念である。
このことは脳全体のアーキテクチャを推定する際のよい指導原理になるかもしれない。

コメント

コメントの投稿

トラックバック


この記事にトラックバックする(FC2ブログユーザー)