FC2ブログ

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

最大エントロピー法とベイジアンアプローチの関係は??

先日のエントリ で最大エントロピー原理の理論的根拠はなんだろう、と書いた。
「最大エントロピー法 最尤法」や「maximum entropy maximum likelihood」で検索すると最大エントロピー法は最尤法と一致するようなことが書いてある資料がいろいろ見つかる。

ただ、常に一致するというわけでもなさそう。
下記ページの質問の回答にいろいろ書いてある。
entropy - Comparison between MaxEnt, ML, Bayes and other kind of statistical inference methods - Cross Validated
でも、まだよくわからない・・・。


ところで、[Levine 2018] は、出発点が最大エントロピー原理というわけではない。
あるモデルの下で方策を推定することが、最大エントロピー原理と似た目的関数の最適化と見なせる、というストーリー。ややこしい。
なお、その時に推定される方策は何かというと、前に書いたように 最適方策に似てはいるが、意味のよくわからない分布。

[Levine 2018] で納得していない点をもう1つ。
アブストラクトにある「確率的ダイナミクスの時は最大エントロピー強化学習が変分推論に一致する」という主張は、意味がある主張なのか、あやしく思っている。
「モデルをあるやり方で変分近似して推論した結果が最大エントロピー強化学習と一致した」という話なら面白いのだが、そうではないように思う。
式 (18) は、ここでは変分近似というよりは同時確率を表現する厳密な式であり、もともと変分下限の最大化はKLダイバージェンスの最小化と同じことなので、式 (19) が式 (11) と一致するのはトートロジーではないだろうか。

スポンサーサイト

最大エントロピー強化学習は何を推定している?

前々回前回 のつづき。

最大エントロピー強化学習は、ひょっとして方策のMAP推定かと思ったが、別にそういうわけではなさそう。

方策を\pi(a|s,θ) としたとき
θ^* = argmax_θ P(o_1:T|θ)
がθの最尤推定。θの事前分布を考慮に入れたもの
θ^* = argmax_θ P(o_1:T|θ)P(θ)
がθのMAP推定。(o_1:T は optimality variable が全部 1 であることを表す。)

ところで reward shaping はQ値の初期値を設定することと等価(*)で、
Q値の初期値を設定することは
Additive smoothing(加算スムージング)と似ている。
加算スムージングはディリクレ分布を事前分布にしたときのMAP推定と同じ。
ようするに、θのMAP推定のようなことは、普通の強化学習でも行われている。

(*)
Wiewiora, E., Potential-based shaping and Q-value initialization are equivalent, Journal of Artificial Intelligence Research 19, 205-208, 2003.
https://www.aaai.org/Papers/JAIR/Vol19/JAIR-1907.pdf


では最大エントロピー強化学習の方は何をやっているかというと、

「たくさんのエージェントを P(a_t) に従う自由意思で行動させたら、その中にはたまたま最適(o_1:T)になるものがいる。 それらを集めたときの条件付分布 P(a_t|s_t,o_1:T) を推定する。」

ということ?
P(a_t|s_t,o_1:T) は最適方策とは解釈できないように思う。
最適方策の代用にはなると思うけど。

最大エントロピー強化学習はなぜ最適方策が確率的?

きのう のつづき。

最大エントロピー強化学習・最大エントロピー制御では
最適方策が確率的になるが不思議。
なぜ argmax ではなく softmax になるのか?

最適方策が argmax ではなく softmax になる根拠の一部、
式(12) は成り立つことを確認した。
そこにいたるロジックも正しいように思える。
(ただし 式(11) の + H は - log の間違いだと仮定。)

コインを投げて表なら100円、裏なら200円もらえるとすると、
コインの表に賭けたときの報酬期待値が100円、裏なら200円とすると、
softmax を使った方策で裏に賭ける確率は e^200/(e^200+e^100)≒1
しかし表1円、裏2円ならば裏に賭ける確率は 0.73 。
表100円、裏101円でも裏に賭ける確率は 0.73 。
確率は報酬の比ではなく差で決まる。
デノミが起きたら方策も変わる。
これが合理的な意思決定とはとても思えない。

これは最大エントロピー強化学習にとって、たまたま悪い結果が出る例ということなのだろうか?
フリーランチはないのだから、どんな手法にも向き不向きはある。

機械の制御に最大エントロピー制御を用いると、出力がガクガクになるのではないのか?出力がガクガクでこまるなら報酬設計でそれを表現すべきである、ということなのだろうか。

[Levine 2018] の maximum entropy reinforcement learning を理解しようと試みた

いろいろな人が言及している Levine のチュートリアル論文を斜め読みしてみました。
[1805.00909] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
(Submitted on 2 May 2018 (v1), last revised 20 May 2018 (this version, v3))

ストーリーだけざっと把握しておこうと思ったのですが、それだけでも結構難しいです・・・。誤植らしきところも結構あります。

強化学習の問題をグラフィカルモデル上の推論の問題に帰着して目的関数を導出し、その目的関数からスタートして具体的な強化学習のアルゴリズムをいくつか導出する、という内容です。

その目的関数には、報酬期待値最大化だけでなく、方策のエントロピーを最大にする正則化項のようなものが現れてきます(例えば 式(11) )。
このような目的関数を持ったものは最大エントロピー強化学習(maximum entropy reinforcement learning) または最大エントロピー制御(maximum entropy control)と呼ばれるそうです。

問題はこのエントロピーの項がなんで出てくるのか、です。
この目的関数からスタートすることで 4.3 節で soft Q-learning という学習アルゴリズムが導出されますが、 通常の Q-learning と少し違った学習則になっています。 では、通常の Q-learning と soft Q-learning のどちらが「理論的に正しい」アルゴリズムなのでしょうか?

ひょっとして「普通の Q-learning は最尤推定、soft Q-learning はMAP推定に対応しており(???)、 どちらも理論的に正しいが、実用上は過適合しにくい soft Q-learning の方がロバストに動作することが多い(???)」ということではないかと思い、論文を読み直してみましたが、よくわからなかったです。

以下、特によくわからない点です。


・ネットワーク全体の同時確率を表す 式(4) に、変数 a_t の事前分布 p(a_t) が抜けている。

・ p.4 に出てくる action prior p(a_t|s_t) というのが何を意味するのか謎。
Fig.1 のネットワークの構造だと a_t と s_t は独立なので、 p(a_t|s_t) = p(a_t) となり、そうするとまさに行動の事前分布ということになる。もしそういう意味だとしたら、理解できる。

・ p.5 の先頭で「一様分布でない p(a_t|s_t) は報酬関数を通じて p(O|s,a) に取り込めるので、 p(a_t|s_t) が一様分布だと仮定しても一般性は失わない」というようなことが書いてあるが、それが正しいのかよくわからない。
("We will see later" というのがどこ指すのかわからない。)
p(a_t|s_t) = p(a_t) は一様分布とそれ以外ではもちろん意味が変わるし、
p(a_t|s_t) を一様分布にするために報酬関数を変えてしまったら、
やはり問題そのものが変わってしまってまずいでは。

・式(11) の + H(π(a_t|s_t)) は - log π(a_t|s_t) の間違い??


自分でMAP推定の目的関数を導出してみれば H(π(a|s)) のかわりに - D_KL(π(a|s) || p(a)) が出てくるのではという気がするのですが、他に優先度の高い仕事があるので、いったんあきらめます。
(p.6 の - log π(a_t|s_t) に + log p(a_t) を足せばいいような気が。)
# フォントが見にくいですが "π" はパイです。

そういえば最大エントロピー原理 というのも Wikipedia を見ただけでは理論的根拠がよくわからないです。これも結局何らかの事前分布のもとでのMAP推定にすぎないのではないでしょうか??

どなたかこのあたり詳しい方がいらっしゃったら教えていただけるとありがたいです。

Sutton & Barto 2nd edition と PRML の公式無料 pdf

Sutton & Barto の強化学習の教科書の Second Edition が発売になりましたが、
draft ではなく最終版の pdf が著者のページからダウンロードできます。
Sutton & Barto Book: Reinforcement Learning: An Introduction

PRML の原著もマイクロソフトのページから pdf がダウンロード可能になっています。
Christopher Bishop at Microsoft Research

すばらしい。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。