FC2ブログ

Sutton & Barto 2nd edition と PRML の公式無料 pdf

Sutton & Barto の強化学習の教科書の Second Edition が発売になりましたが、
draft ではなく最終版の pdf が著者のページからダウンロードできます。
Sutton & Barto Book: Reinforcement Learning: An Introduction

PRML の原著もマイクロソフトのページから pdf がダウンロード可能になっています。
Christopher Bishop at Microsoft Research

すばらしい。

汎用人工知能開発の期待値

汎用人工知能(AGI)が実現すれば人類に大きな利益をもたらすから開発を進めるべきだという人と、AGIが暴走したら人類が絶滅するからやめるべきだという人がいます。
また、AGIが暴走するリスクは確かにあるが、一方でAGIの実現により火山の噴火や疫病などを原因とする人類絶滅リスクを減らせるという意見もあります。
AGIの実現確率や利益・損失の大きさの見積もりは人によってさまざまです。

そこでAGI開発を推進すべきか禁止すべきかを決める判定式を考えてみました。

AGI開発で人類が得られる利益の期待値
= AGI実現確率 x(実現時利益 - 暴走確率 x 暴走時損失)


この値が0より大きい人はAGI開発推進、小さければAGI開発禁止の立場ということになります。
(ここで「暴走」は人為的な悪用も含むものとします。)

AGI実現確率を0と考える人にとっては期待値も0となり、話は簡単です。
そうでない場合は複雑なので、表にまとめてみました。

実現確率と暴走確率の「ε」は無限小もしくは非常に小さな値、「有限値」はある程度大きな値という意味です。
実現時利益と暴走時損失の「∞」は非常に大きな値もしくは文字通り無限大という意味です。
ε x ∞ や ∞ - ∞ は、値が決まらないので NaN (Not a Number)としました。

(表)
AGI開発で人類が得られる利益の期待値

NaN が多いところにこの問題の難しさが表れていますね・・・。

ちなみに私の考えは、

実現確率=有限値
実現時利益=∞
暴走確率=ε
暴走時損失=∞


なので表では 有限値 x (∞-ε x ∞)= NaN となります。
ですが、AGIのおかげで自然災害等による人類絶滅の可能性を減らせる確率の方が暴走による人類絶滅の確率をはるかに上回り、期待値は十分に大きな値となるのでAGI開発は推進すべきである、と今のところ考えています。

皆様もこの判定式をAGI談義をするときの自分の立場表明にご活用いただければ幸いです。

蝶と蛾のサテュロス型擬態と BigGAN

蝶と蛾の曖昧擬態の世界」のページを放置している間にこういう本が出ていました。

なぜ蝶は美しいのか | フィリップ・ハウス |本 | 通販 | Amazon

英国の昆虫学者による本で、まさに、私が関心を持っていた、捕食者をおどろかせる擬態について書かれているようです!この本の著者は「サテュロス型擬態」と呼んでいます。
さっそく注文しました。

書評を検索してみましたが下記ページが詳しかったです。

2015-08-14 「なぜ蝶は美しいのか」

また、下記ブログは豊富な蛾の写真とともにサテュロス型擬態を紹介していて興味深いです。

古くて新しい擬態 サティロス型擬態 ちょっとだけ、不思議な昆虫の世界
ちょっとだけ不思議な昆虫の世界(2) - Yahoo!ブログ

ところで、ちょうどいま twitter で #BIGGAN で検索すると
BigGAN で生成された気味の悪い画像が見られますが、
蛾の模様の得も言われぬ不気味さと通じるものがありますね。

蝶と蛾の曖昧擬態の世界

Yahoo!ジオシティーズのサービスが終了とのこと。

「Yahoo!ジオシティーズ」来年3月に終了 Webサイト作成サービス、約20年の歴史に幕 - ITmedia NEWS

長い間更新していない下記ページも、それにともない3月末でひとまず消滅の予定です。

蝶と蛾の曖昧擬態の世界

大発見だと思うのですが、あまり注目されなかったのが残念。

汎用人工知能研究会にて階層型強化学習の話を発表予定

8月30日(木)の汎用人工知能研究会で、下記の内容で発表します。

前頭前野周辺の情報処理機構のモデルの構築に向けた最初の取り組みとして、
階層型強化学習の新しいアーキテクチャを設計しました。
忌憚ないご意見いただければと思います。よろしくお願いいたします。

タイトル:
RGoal Architecture: 再帰的にサブゴールを設定できる階層型強化学習アーキテクチャ

概要:
人間は何か目的を達成するために適切なサブゴールを設定できる。
さらに必要に応じてそのサブゴールを再帰的に設定することができ、その再帰の深さには制約がないように見える。
この振る舞いにヒントを得た階層型強化学習の新しいアーキテクチャとして、
RGoal アーキテクチャを提案する。
アルゴリズムは、拡張状態行動空間上の MDP を解く形で定式化される。行動価値関数は、価値関数分解により複数のタスク間で共有可能になり、マルチタスク環境での学習を効率化する。
「思考モード」における振る舞いは一種のモデルベース強化学習であり、
学習済みのタスクを組み合わせることで、
一度も経験したことのないタスクを少ない試行錯誤で、
場合によってはゼロショットで解くことができる。
アルゴリズムはスタックを用いず、フラットなテーブルとシンプルな操作の繰り返しで実現される。
今後このアーキテクチャを拡張し、脳の前頭前野周辺の情報処理機構のモデルを構築する。