fc2ブログ

記号推論と強化学習を統合した脳型汎用人工知能アーキテクチャの構想

作ろうとしている脳型AGIアーキテクチャの全体像がだいぶ具体化してきたので概要をざっと書いておきます。

まず RGoal (2018年8月のAGI研究会論文) に Dyna-2 の機構を取り入れます。 Dyna-2 はモデルベース強化学習の元祖である Dyna アーキテクチャの拡張版で、行動価値関数を永続メモリと一時メモリに持つことを特徴とします。これに似たものを RGoal に取り入れます。RGoal の思考モードで学習した結果は一時メモリに入れて使い、一時メモリの内容を時間をかけて永続メモリに定着させることを考えています。

永続メモリに記憶を転送する際に状態行動対を圧縮・抽象化するのですが、それは2018年11月のAGI研究会論文で書いた方針で行います。そこでやろうとしていることは帰納論理プログラミングそのもののようです。帰納論理プログラミングとは、論理プログラミングを用いた機械学習手法です。
参考:
帰納論理プログラミングの基礎理論とその展開

私が作ろうとしているものは、結局、強化学習と帰納論理プログラミングを組み合わせたものになります。似たものとしては過去に Relational Reinforcement Learning というのものが提案されています。
http://www-ai.ijs.si/SasoDzeroski/oldPage/files/2001_DRD_RelationalReinforcementLearning.pdf
これは、帰納論理プログラミングの技術を用いることで、行動価値関数を圧縮表現する prolog のプログラムを生成するというものです。圧縮により汎化能力が上がります。生成される prolog のプログラムは「論理決定木」という特殊な回帰木で、チューリング完全なプログラムを生成するわけではありません。

私が作ろうとしているものは、 RGoal の行動価値関数のテーブル Q(s,g,a) を圧縮します。圧縮されたテーブルの要素1つが prolog の(body のない)ホーン節に相当します。テーブル全体は、有限オートマトンもしくはプッシュダウンオートマトン程度の表現力を持った、特殊な prolog プログラムと見なせます。大脳は外界の状態や海馬を外部メモリのように操作することができるので、それによりチューリング完全な能力を持つことになります。

しかし一般に、表現力の強いプログラムを入出力例のみから合成するのは容易ではありません。そこだけに真正面から取り組んでも、どうやら汎用人工知能ができる見込みはなさそうだという確信にいたりました。ヒトの脳は巧妙な方法で「ズル」をして、プログラム合成という解けない問題を現実的に解ける問題に落とし込んでいるのだと思います。その巧妙な方法を推定するためには、神経科学的知見やヒトの生態に関する知識がよいヒントになります。

いま注目しているのはカリキュラム学習です。機械学習において、学習のカリキュラムを適切に設定することによって、素朴な方法では学習できなかったものが学習できるようになる場合があります。RGoal はサブルーチンを持つことができる階層型強化学習アーキテクチャですが、適切な学習カリキュラムを組むことで、1つのサブルーチンを O(1) 程度で獲得できるようにすることを目論んでいます。そうすると時間 n で O(n) 個の知識を獲得できます。このような目標は従来の帰納論理プログラミングでは研究されていなかったかもしれません。

獲得するサブルーチンは抽象化されているため汎用性が高く、複数のサブルーチンを組み合わせて非常に多くの未知の状況にも対処できるようになります。ここが汎用人工知能実現の中核技術になります。エージェントは、目前の課題を手持ちの知識を組み合わせで解くための手順を探索します。この探索は RGoal の思考モードで行います。思考モードは、経験で獲得した Q(s,g,a) の値を公理と見なし、その公理を組み合わせることで経験したことのない Q(s,g,a) の値を演繹推論するしかけです。

知識獲得を現実的なものにするためにもう1つ必要となりそうな工夫は、教師とのインタラクティブなやり取りです。帰納論理プログラミングの分野でも、完全自動ではなく人間への質問を用いるシステムが多く研究されているようです。これについてはまだ調査中ですが、長い歴史を持つ分野なので、そこから多くのヒントが得られると思います。ヒトの発達過程における知識獲得においても、環境や親とのインタラクティブな相互作用が、解けない問題を解ける問題に落とし込むために重要な役割を果たしているのだと思います。

他にも能動的注意や言語を用いた記号推論の機構についてもいろいろ考察が進んでいます。

能動的注意は、実質的に無限次元の環境の状態を有限の次元に近似する働きをします。この原理は視覚刺激に対してだけでなく、記号推論の際にも使えそうです。

1つの文の意味はエージェントの脳の中では論理式のようなもので表現します(2018年3月のAGI研究会論文)。2層BESOM4は論理式から論理式への推論規則を表現できる(2016年12月のAGI研究会論文)ので、記号推論エンジンの重要な部品になります。これは RGoal の思考モードとは別の機構で、おそらく生物の中でもヒトだけが持っているものです。 Q(s,g,a) の s は大脳皮質の感覚連合野の発火のスナップショットです。文の意味も大脳皮質の発火で表現されるものですから、 s の一部に含まれることになります。

外界の状態や他者の心の状態などは、 Q(s,g,a) で表現されたホーン節の集合で表現することを考えています。外界も他者の心もプログラムと同じくらいの複雑さを持っていますが、ホーン節の集合であれば任意のプログラムが表現できます。また、この表現方法は、インクリメンタルな知識の追加・改良や、知識の断片と言語との間の相互変換も容易です。ヒトの脳では海馬や皮質がホーン節の集合を宣言的知識として蓄えているのだと解釈します。


以上のような構想です。

JSAIでは6月6日に RGoal について発表します。
2019年度 人工知能学会全国大会(第33回)/階層型強化学習 RGoal アーキテクチャへの再帰呼び出し用スタックの導入
こういう研究に関心のある方は声をかけてください。
コメントなどもいつでもお待ちしております。

最大エントロピー法とベイジアンアプローチの関係は??

先日のエントリ で最大エントロピー原理の理論的根拠はなんだろう、と書いた。
「最大エントロピー法 最尤法」や「maximum entropy maximum likelihood」で検索すると最大エントロピー法は最尤法と一致するようなことが書いてある資料がいろいろ見つかる。

ただ、常に一致するというわけでもなさそう。
下記ページの質問の回答にいろいろ書いてある。
entropy - Comparison between MaxEnt, ML, Bayes and other kind of statistical inference methods - Cross Validated
でも、まだよくわからない・・・。


ところで、[Levine 2018] は、出発点が最大エントロピー原理というわけではない。
あるモデルの下で方策を推定することが、最大エントロピー原理と似た目的関数の最適化と見なせる、というストーリー。ややこしい。
なお、その時に推定される方策は何かというと、前に書いたように 最適方策に似てはいるが、意味のよくわからない分布。

[Levine 2018] で納得していない点をもう1つ。
アブストラクトにある「確率的ダイナミクスの時は最大エントロピー強化学習が変分推論に一致する」という主張は、意味がある主張なのか、あやしく思っている。
「モデルをあるやり方で変分近似して推論した結果が最大エントロピー強化学習と一致した」という話なら面白いのだが、そうではないように思う。
式 (18) は、ここでは変分近似というよりは同時確率を表現する厳密な式であり、もともと変分下限の最大化はKLダイバージェンスの最小化と同じことなので、式 (19) が式 (11) と一致するのはトートロジーではないだろうか。

最大エントロピー強化学習は何を推定している?

前々回前回 のつづき。

最大エントロピー強化学習は、ひょっとして方策のMAP推定かと思ったが、別にそういうわけではなさそう。

方策を\pi(a|s,θ) としたとき
θ^* = argmax_θ P(o_1:T|θ)
がθの最尤推定。θの事前分布を考慮に入れたもの
θ^* = argmax_θ P(o_1:T|θ)P(θ)
がθのMAP推定。(o_1:T は optimality variable が全部 1 であることを表す。)

ところで reward shaping はQ値の初期値を設定することと等価(*)で、
Q値の初期値を設定することは
Additive smoothing(加算スムージング)と似ている。
加算スムージングはディリクレ分布を事前分布にしたときのMAP推定と同じ。
ようするに、θのMAP推定のようなことは、普通の強化学習でも行われている。

(*)
Wiewiora, E., Potential-based shaping and Q-value initialization are equivalent, Journal of Artificial Intelligence Research 19, 205-208, 2003.
https://www.aaai.org/Papers/JAIR/Vol19/JAIR-1907.pdf


では最大エントロピー強化学習の方は何をやっているかというと、

「たくさんのエージェントを P(a_t) に従う自由意思で行動させたら、その中にはたまたま最適(o_1:T)になるものがいる。 それらを集めたときの条件付分布 P(a_t|s_t,o_1:T) を推定する。」

ということ?
P(a_t|s_t,o_1:T) は最適方策とは解釈できないように思う。
最適方策の代用にはなると思うけど。

最大エントロピー強化学習はなぜ最適方策が確率的?

きのう のつづき。

最大エントロピー強化学習・最大エントロピー制御では
最適方策が確率的になるが不思議。
なぜ argmax ではなく softmax になるのか?

最適方策が argmax ではなく softmax になる根拠の一部、
式(12) は成り立つことを確認した。
そこにいたるロジックも正しいように思える。
(ただし 式(11) の + H は - log の間違いだと仮定。)

コインを投げて表なら100円、裏なら200円もらえるとすると、
コインの表に賭けたときの報酬期待値が100円、裏なら200円とすると、
softmax を使った方策で裏に賭ける確率は e^200/(e^200+e^100)≒1
しかし表1円、裏2円ならば裏に賭ける確率は 0.73 。
表100円、裏101円でも裏に賭ける確率は 0.73 。
確率は報酬の比ではなく差で決まる。
デノミが起きたら方策も変わる。
これが合理的な意思決定とはとても思えない。

これは最大エントロピー強化学習にとって、たまたま悪い結果が出る例ということなのだろうか?
フリーランチはないのだから、どんな手法にも向き不向きはある。

機械の制御に最大エントロピー制御を用いると、出力がガクガクになるのではないのか?出力がガクガクでこまるなら報酬設計でそれを表現すべきである、ということなのだろうか。

Sutton & Barto 2nd edition と PRML の公式無料 pdf

Sutton & Barto の強化学習の教科書の Second Edition が発売になりましたが、
draft ではなく最終版の pdf が著者のページからダウンロードできます。
Sutton & Barto Book: Reinforcement Learning: An Introduction

PRML の原著もマイクロソフトのページから pdf がダウンロード可能になっています。
Christopher Bishop at Microsoft Research

すばらしい。