行動選択とMPE

現在、「ベイジアンネットとMPEに基づく運動野の計算論的モデル」という
タイトルで国際会議に投稿中。

概要:ベイジアンネットと競合学習と強化学習を組み合わ
せた運動野の計算論的モデルについて述べる。このモ
デル上でのMPE (most probable explanation) を用い
た意思決定が、理想的意思決定の近似になることを理
論的考察と計算機実験で確認した。この結果は、MP
E計算が、感覚野と運動野を含む大脳皮質の動作を統
一的に説明する有望なモデルであることを示唆する。


運動野の行動選択の目的である報酬期待値最大化と
感覚野のパターン認識の目的である事後確率最大化を
どうすれば統一できるか、というのは自分にとっての長年の大問題でしたが、
今回ようやく解決したと思っています。

今回は隠れノードが1つだけの簡単な場合しか扱っていませんが、
同じ考え方で、
ポピュレーションで状態を認識し、
ポピュレーションで行動を選択し、
ポピュレーションで運動指令を出し、
ポピュレーションで行動価値関数を学習する、
という、脳のような「ポピュレーション強化学習」が
実現できるのではないかと考えています。

コメント

コメントの投稿

トラックバック


この記事にトラックバックする(FC2ブログユーザー)