スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Sutton and Barto の強化学習の教科書第2版

Sutton and Barto の強化学習の教科書の英語の全文が以前から公開されていましたが、第1版の html 版は、つい最近、場所が変わったようです。ここです。
http://incompleteideas.net/sutton/book/ebook/the-book.html

また、第2版の draft pdf が公開されています。
「Sutton & Barto Book: Reinforcement Learning: An Introduction」
http://incompleteideas.net/sutton/book/the-book-2nd.html

内容がかなり追加されています。
Psychology, Neuroscience の章もあります。


なお、日本語の新しめの強化学習の教科書としては「これからの強化学習」(森北出版)がおすすめです。
スポンサーサイト

「Model-based 強化学習とその周辺」

以前、ブログでモデルベース強化学習の調査をしませんかと呼びかけたのですが、
それを受けて東北大 吉田さんが解説文章を書いてくださいました!
吉田様、どうもありがとうございます。

Model-based 強化学習とその周辺」(追記:後日アップデートがあるかもしれません、とのことです。)

モデルベース強化学習は、生物のように頭の中でシミュレーションしてから実際の行動を行うシステムを実現するために必要な技術だと、私は考えています。

力作ですので、多くの方に読んでいただきたいです。

不気味な Vicarious

秘密裏に開発を進めていて不気味な Vicarious について、
下記記事に最近の状況が少し書かれています。

宮本和明のシリコンバレー最新先端技術報告 - Facebookの次の10年、人工知能が支えるソーシャルネットワーク:ITpro

「これに対してVicariousは、人間のように、“イマジネーション”を使って高速に学習すると言われている。 」
とのこと。
EMアルゴリズムのことでしょうかね。
Vicarious の技術が HTM のようなベイジアンネットかどうかはわかりませんが、
デモを見る限り生成モデルであることは間違いないです。

デモを見ただけではすごいのかすごくないのか、いまひとつわかりませんが、
これらのデモがもし単に片手間に作ったものに過ぎないならば、
おそろしい潜在能力を秘めている可能性はあると思います。

挙げられている応用はけっこう平凡で、ここは安心材料です。
しかし、すでに投資を得ている以上彼らにとって対外的なハデな宣伝は不要なわけで、
まったくあなどれません。

ちなみにEMアルゴリズムは、
「多くの実例では他の手法に比べて 良い解に収束する」
「繰り返しの初期の段階では Newton 法 と同定度に速い」そうです。
参考:「EM アルゴリスム

現状のディープラーニング技術はほぼすべて、
EMアルゴリズムではなく勾配法です。

Vicarious が複雑な生成モデルをEMアルゴリズムで学習する技術を
開発しているとすれば、現状のディープラーニングよりよいものに
なる可能性はありますよね・・・!?

ちなみに、 BESOM の学習もEMアルゴリズムです。
勾配法は認識結果の「点」を使って誤差を計算するが、
EMアルゴリズムは事後確率の「分布」をもとに学習するので、
計算時間はかかるけれど、よい解に少ないステップで収束するのではないかなあ、
と直感的には思います。

EMアルゴリズムの利点を保ったまま、
いかに計算時間を少なくするかが重要な技術的課題です。

追記:Vicarious へのインタビュー記事も出てました。
技術的詳細はあいかわらず不明。
ザッカーバーグやベゾスなど超大物投資家ずらり、ナゾに包まれたAI企業:日経ビジネスオンライン

人工知能基本問題研究会 特集「確率的グラフィカルモデルとビッグデータ分析」

1月の人工知能基本問題研究会の発表申し込みの締め切りが延長されたようです。
私はもう申し込みました。

>人工知能学会 第96回人工知能基本問題研究会(SIG-FPAI)
>■ 開催日:2015年1月13日(火)、14日 (水)
>■ 会場:名古屋工業大学 6号館 11F 会議室
>■ 発表申込期限:2014年12月12日(金) 17:00(延長しました)

リンク: 人工知能学会 第96回 人工知能基本問題研究会 (SIG-FPAI)

電通大 植野先生によるベイジアンネットのチュートリアルもあります。

LSTM 、ちょっとだけ理解を試みる

時系列データを学習するニューラルネットの一種、 LSTM について、
ちょっとだけ理解しようと試みたので、自分用のメモをここに書いておきます。

「Long Short-Term Memory in Recurrent Neural Networks」
http://www.felixgers.de/papers/phd.pdf
ドイツ Hannover 大、 FELIX GERS の Thesis, 2001 。
p.11 に「従来の(初期の)LSTM」の全体像が書かれている。
が、メモリブロックが1つに省略されているので全体像が分かりにくい。
(RNNの中間層の各ユニットを
「メモリブロック+入出力ゲート」に置き換えたものがLSTMなのだろう。
おそらく、入出力ゲートは、すべての入力とすべての中間層の出力を受け取る、
というアーキテクチャになる。)

Long short term memory - Wikipedia, the free encyclopedia
http://en.wikipedia.org/wiki/Long_short_term_memory
LSTM は recurrent neural network (RNN) アーキテクチャの1つ。
普通の RNN と同様、万能。
LSTM は多くのアプリケーションにおいて、 RNN や HMM より性能が良い。
LSTM ネットワークは、普通の RNN のユニットを LSTM Block に置き換えたもの。
(中間層をフルに再帰的結合した典型的なRNNを考えると、
その中間層の各ユニットを LSTM Block に置き換えたものが
LSTM ネットワークの例だと思えばいいだろう、たぶん。)
LSTM Block とは、値を任意の時間記憶できる、 "smart" なネットワーク部品。
図の最下部4ユニットのうち一番左が入力をメモリに送るユニット、他の3つはゲート。
3つのゲートは左から入力ゲート、忘却ゲート、出力ゲート。
それぞれ、入力をいつ記憶すべきか、記憶された値をいつ忘却すべきか、
記憶された値をいつ出力すべきかを決定する。
図のΠは重みなし。
Σは線形和(重みあり)。記憶は減衰せず維持される。
学習は勾配降下法。
従来のRNNだと重要イベント間のタイムラグが増えると勾配が指数関数的に減る。
(中間層の多い多層パーセプトロンで勾配が消える問題と同じと思われる。)
一方でLSTMではエラー信号はメモリ部分にトラップされるので、消えない。
これは "error carousel" と呼ばれる。
carousel :メリーゴーラウンド

「Recurrent Neural Networks」
http://www.slideshare.net/beam2d/pfi-seminar-20141030rnn
PFI 得居さんによるRNNの解説。
Constant Error Carousel (CEC) が記憶する場所。
(CEC はエラーをため込むのか?入力をため込むのか?
モデルとしては値をため込むように作られているが、
勾配法で学習則を導くと学習時にはエラーをため込むかのように振る舞う、
ということだろうか?)
「各 gate への入力は入力系列の今の値と、
直前の時刻における各 LSTM ユニットの出力。
後者は output gate で制御されてしまい、
本当の隠れ状態が見えない。」
この問題を解決するのが Peephole Connection ?
(この「LSTM ユニット」は Wikipedia でいう "LSTM block" と思われる。)
「隠れ状態そのものを gate の制御に使うのが Peephole Connection 。」
Peephole Connection を省いたものもよく用いられる。
(Wikipedia の図では Peephole Connection は省かれている。)

だいぶLSTMのイメージがつかめてきた。
CNN(たたみ込みニューラルネット)が画像に関する事前知識を作り込んでいるように、
LSTMはRNNが持つべき記憶に関する事前知識を作り込んでいるのだろう。
しかし、作り込み方は、他にもいろいろな方法があるだろう。
脳にも何かが作り込まれているはず。
あと、LSTMは教師あり学習だけど、教師なし学習に適用可能だろうか。
出力を入力を一致させる autoencoder にすればよいのだろうか。
また、HMMのようなダイナミックベイジアンネットへの適用は
行われているだろうか。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。