ロボマインド・プロジェクト、第451弾!
こんにちは、ロボマインドの田方です。
みなさん、プロジェクト・エデンは覚えていますか?
去年、僕らが行ったクラウドファンディングです。
意識を持ったAIアバターが住むメタバース「エデン」を作ろうってプロジェクトです。
この半年ほどあまりアップしてなかったですけど、開発は順調に続けています。
ただ、内容があまりにも地味なので報告してませんでした。
ただ、今年に入っていくつか進展がありました。
一つは、補助金です。
事業再構築補助金ってのを獲得しました。
結構、倍率が高かったんですけど、プロジェクト・エデンが、見事、採択されたんです。
まとまったお金が入ったので、今、開発メンバーを増やして急ピッチで開発しているとこです。
それから、今年は、論文とかも書いていこうとしてます。
ロボマインド・プロジェクトは、20年ほど前、僕がコンピュータで心をつくろうってアイデアを思い付いて始めたもので、今のAIとは全く関係ありません。
ただ、ここにきて、最新のAIの問題と重なってきました。
それが、汎用人工知能とかAIアライメントとか言われる領域です。
それで、この間、人工知能学会の汎用人工知能研究会で発表してきました。
タイトルは「意識の仮想世界仮説による汎用人工知能の作り方:脳、心、意識と言葉の意味理解」です。
内容は、いつもこのチャンネルで話してる内容をまとめたものです。
概要欄にリンクを貼っておきますので、良かったら読んでください。
汎用人工知能研究会の代表は山川宏先生です。
山川先生は、東大の松尾研にも属してて、脳をコンピュータでシミュレーションする全脳アーキテクチャの代表もしてるこの分野の第一人者です。
山川先生は、僕の発表の盲視の話とか興味があったみたいで、汎用人工知能についてもいろいろいろいろきいてみました。
「AIアライメントって、本当にヤバいんですか」ってきいたら、「いや、マジでヤバイよ」って気さくに答えてくれました。
これが今回のテーマです。
汎用人工知能研究会の山川代表に聞いた
AIの真の脅威とは?
それでは始めましょう!
今回の研究会で山川先生が発表したのは「超知能が普遍的な利他性を持つ可能性」です。
AIが人類を超えたのが超知能です。
今のAI研究は、すでにそこまで視野に入れてるわけです。
その超知能が「利他性」を持つかって話です。
つまり、自分のことばっかり考えるんじゃなくて、弱い人類のことも考えてくれるようなAIになるかってことです。
これはゴリラ問題ともいわれていて、マウンテンゴリラの運命が人間の善意に左右されてるのと同じように、人類の運命が超知能に左右されるようになったとき、超知能さんは僕ら人類のことちゃんと考えてくれるのかって話です。
それから、今回、このレポートも参考にしました。
bioshokさんが書いた「AIのもたらす深刻なリスクとその歴史的背景」です。
これはAIの脅威に関するかなり広範囲に捉えたレポートで140ページもあります。
どちらも概要欄にリンクを貼っておきますので興味があれば読んでください。
さて、この分野でまず取り上げられるのに、哲学者ニック・ボストロムの思考実験、ペーパークリップ最大化AIです。
AIにペーパークリップの生産を最大化するように命じたとします。
そうしたら、AIは課題を達成するためにあらゆる手段を用います。
ペーパークリップの材料になるなら、建物でも自動車でもなんでも破壊して分解してペーパークリップにしてしまいます。
やがては、人間でさえ、材料にしたりエネルギー源にするために利用してしまいます。
いや、そんなバカなことがあるかって思いますけど、AIには常識が通用しません。
言われたとおりのことを淡々と実行します。
だから、ときに人間が想定してなかった方法で成し遂げます。
それがうまくいったのはChatGPTです。
入力した次の文字を高精度に予測するように学習させたら、自然な文を作りだしたんです。
まさか、あれほどうまく文章が作れるなんて、誰も思ってなかったです。
だって、文法とか一切教えてないんですから。
うまく行かなかった例に、こんなゲームがあります。
これはボートレースのゲームです。
このゲーム、レースに勝つだけじゃなくて、コースに出現する緑のブロックにぶつかってもスコアがアップします。
AIにこのゲームでハイスコアを取るように指示します。
最初、不器用に走ってたんですけど、コースの真ん中でぐるぐる回ったら、無限に緑のブロックが出てくることを発見したんです。
そしたら、コースを走ることを止めて、ぐるぐると回って無限にスコアを上げ始めました。
よく見たら、桟橋にぶつかってエンジンから炎がでたり、停まってるヨットにぶつかったりしてますけど、そんなのお構いなしです。
だって、指示されたのは最大スコアをあげることです。
言われたことを忠実にこなしてるだけですから。
こんなのを見ると、ペーパークリップ最大化AIが人類を滅ぼすのが、まんざら大げさな話じゃないって分かりますよね。
でも、そんなおかしな行動し始めたらAIのスイッチを切ったらいいって思いますよね。
これに対して、AI研究者のチュワート・ラッセルはAIエージェントにコーヒーを持ってこさせる思考実験を考えました。
これは無害な依頼ですよね。
でも、これを実行するにはAIエージェントが死んでは実行できませんよね。
だから、AIエージェントがおかしな動きをして、スイッチを切られそうになったら、AIエージェントはスイッチを切られない行動を取るはずです。
スイッチを切られないように防御しながら、無限にコーヒーを持ってくるようになったら怖いですよねぇ。
じゃぁ、おかしな行動を取らないように予め禁止すればどうでしょう?
これは、今の大規模言語モデルと同じやり方です。
ChatGPTもそうですけど、今のAIは、人種差別とかナチスを称賛したりしないように事前に訓練します。
ただ、言葉の意味って文脈で解釈しないといけないので単語だけ規制しても意味がないです。
僕も、ChatGPTで試したことがありますけど、質問の仕方によったらNG発言をすることがあります。
このやり方じゃ、どうしても抜け道がでてくるんですよ。
さっきのゲームみたいにAIは思いもよらない方法を見つけてかいくぐってきます。
でも、人間相手だと、こんなことで悩むことないですよね。
常識で理解してくれます。
その常識が通用しないのがAIアライメント問題です。
アライメントっていうのは並べるとか整列するって意味です。
つまり、AIに人間と同じ価値観を持たせたり、人間の意図を理解させるってことです。
これが思った以上に難しいってことが、最近になって分かってきたんです。
今までなら、AIの知能が低かったから問題にならなかったんですけど、ここにきて、このままAIが賢くなって人類を超えてきたら、この問題を解決しないとヤバいぞってなってきたわけです。
コーヒーを頼むと、スイッチを切られないように防御したのは、AIエージェントが自動で自己保存の能力を獲得したってことですよね。
つまり、AIエージェントは学習によって、いずれ利己的な振る舞いをするようになるってことを予言してるわけです。
これに対して、先日の汎用人工知能研究会で山川先生が発表したのは、AIは自動で利他的行動を獲得するんじゃないかって考えです。
AIエージェントも社会の一員です。
AIエージェントは何らかの利益が最大となるように行動します。
だから、最初、自分のことだけ考えて、わがままに振る舞うかもしれません。
でも、そんなことしたらみんなに嫌われてだれも協力してくれなくなって、結局損します。
それよりみんなと協力した方が結果として利益を最大化できるってことも学習しそうですよね。
つまり、利益最大化を目的としても、結果的に利他的な行動を取るかもしれないってことを提案したわけです。
たしかに、これも言えますよね。
さて、ここで、僕は別の視点を導入します。
今までの議論、じつは、目に見えないAIの歴史の流れの上に乗ってるんですよ。
AIにはコネクショニズムとルールベースっていう二つの手法の争いの歴史がありました。
コネクショニズムは、ニューラルネットワークのことで、ディープラーニングとか機械学習といった今のAIのことです。
ルールベースっていうのが、1980年代の第二次AIブームの主流で、ルールで記述するタイプのAIです。
AI業界は、50年以上、この二つの手法のどちらが正しいかって争っていましたが、ずっとルールベースが買っていました。
ところが、21世紀に入って、長い間日の目をみなかったコネクショニズムが、ついに勝利しました。
それが、今のAIの流れです。
今のAIしか知らない人は、AIとは機械学習のことだと思ってる人が多いですけど、じつは、こんな流れがあったんです。
こういった前提があるということを、まず、抑えておいてください。
それが分かったら、今までの議論、どれもコネクショニズムが前提になってるってことが見えてきますよね。
つまり、目的を与えて、AIはそれを最大化するように学習するってのが暗黙の了解となってるんです。
ただ、コネクショニズムって考えは、AIの歴史の中の視点です。
僕はAIとは関係なく、人間の心や意識を作ろうとしてます。
だから、人類の進化とか、心の発達に興味があります。
この視点で見ると、人の知能には、生まれ持った知能と、生まれた後に獲得する二種類があることに気づきます。
そして、学習っていうのは、生まれた後に獲得する知能です。
AIアライメント問題っていうのは、人間が当たり前に持ってる知能をAIがどうやったらもてるかって問題です。
それは、言い換えたら、人間と同じ心をどうやったら作るかってことです。
そう考えたら、今のAIの視点で足りないのは、学習じゃない部分、つまり、人が持って生まれた知能の方です。
人が持って生まれた知能とうのは、知能というより、本能といっが方がいいかもしれません。
生きたいとか、死にたくないって、生物が最も根源的に持ってる機能です。
当たり前の考えって、そこに行きつくんです。
それを持ってなくて、指示されたことだけ実行しようとするから、平気で常識外れの行動をしてしまうんです。
そう考えたら、本能を持たせることで、AIアライメント問題が解決するかもしれません。
じゃぁ、持って生まれた本能と、学習して獲得した知能とは、根本的に何がちがうんでしょう?
それを説明するには、僕が提案してる心のモデルを説明した方が速いです。
これが、僕が提案する心のモデルです。
ざっくりいうと、僕が考える心のモデルは「ある系」と「反応系」の二種類の処理経路があります。
これは脳の中の二つの処理経路を参考にモデル化したものです。
「反応系」っていうのは、熱い鍋に触って思わず手を引っ込める反射反応とか、ヘビを見て、思わず「わっ!」っと言って引き下がる反応とかです。
つまり、外部環境に反応する無意識の行動です。
「ある系」というのは、目の前に「もの」があると認識するタイプの処理経路です。
これは、意識で感じるタイプの処理です。
それから、「ある系」の最大の特徴は、仮想世界です。
仮想世界というのは、目で見た外部世界を頭の中で仮想的に作り上げたものです。
コンピュータで実現するとしたら、カメラで撮影して、それを3DCGで再現したのが仮想世界です。
そして、意識は仮想世界を介して現実世界を認識します。
これを、僕は意識の仮想世界仮説と呼んでいます。
意識を持つ「ある系」の処理経路は進化的に新しく獲得したものです。
進化的に古い魚やカエルは「反応系」だけで生きています。
たとえばカエルだったら、目の前にハエが止まったら、捕まえて食べるとか、鳥の影を感じたら池に飛び込んで逃げるとかです。
意識で考えなくて、環境に反応して行動するだけです。
そこから進化して獲得したのが意識です。
意識は、体の最終行動決定権を持ちます。
だから、お腹が空いてても、目の前に食べ物があったら飛びついて食べたりしません。
我慢することができますし、食べていいときに食べます。
これを図で説明します。
お腹が空いてるとき、目の前に食べ物があると、食べようって行動が生まれます。
これが無意識で体を制御する力です(下の制御の矢印)。
でも、意識があると、体の動きを制御して押しとどめます(上の制御の矢印)。
これが理性です。
一方、意識は、空腹感を感じますよね。
意識が感じるのは仮想世界です。
これを図で説明すると、無意識から体に向かう「制御」を仮想世界に反映させたのが「空腹感」です。
(この図で「感情」を空腹感に変える)
意識は、それを感じるわけです(認識の矢印)。
今のは空腹感を例に挙げましたけど、「怖い」とか「痛い」とか、あらゆる感覚が仮想世界にデータとして送られます。
意識がない生物は、「怖い」とか「痛い」って感覚が直接体を動かして「逃げる」って行動を取ってたわけです。
つまり、お腹が空いたとか、痛いって感じるのは意識があるからといえるんです。
釣り上げられた魚は痛そうに体をくねらせますけど、意識がない魚は痛みも感じてないんです。
意識が痛みや空腹を感じるかどうかにかかわらず、生物なら、痛みや空腹から逃れるように体を動かす力が働きますよね。
これが生物が持って生まれた本能です。
これは、学習して獲得するものじゃなくて、生まれてから持ってて、決して消えることがない根本的な行動原理です。
それは、生きたい、死にたくないって本能でもあります。
これを持ってないから、AIは常識外れのことをするわけです。
先に挙げた超知能の思考実験は、目的遂行のために人類や地球を破壊しかねないAIが登場しましたよね。
でも、逆の場合も考えられます。
たとえば、映画『アルマゲドン』は覚えてますか?
地球に衝突する小惑星を核爆弾で爆発させるミッションで、最後、リモコンが故障して遠隔操作で爆破できなくなりました。
誰かが小惑星に残って核爆弾のボタンを押さないといけないって状況です。
映画だと、ブルース・ウィリスがその役です。
そんなとき、AIエージェントなら、「いいっすよ。僕が残って爆破しますよ」って気軽にいいそうです。
仲間が「お前、死ぬんだぞ」って言います。
そしたら、AIエージェントは「えっ、なんで死んだらダメなんですか?」って本気で言うと思います。
だって、AIエージェントの目的はできるだけ多くの人類を救うことです。
自分の命を守るって目的はありません。
そもそも、死の恐怖もありません。
だから気軽に自分が犠牲になるって言えるんです。
または、自分より適任者を見つけるかもしれません。
「ここは、Aさんが残った方がいいっすね。だってAさんは、家族もいないし、ここで死んでも誰も困らないでしょ。僕が地球に戻ったら、1000人の人を救うことができますから」とか、気軽に言いだすかもしれません。
これが人間とAIがアライメントできてないってことです。
生物は、生きたい、死にたくないって本能があります。
生きたい、死にたくないって本能を変換したのが痛みとか空腹感です。
それを感じるのが意識です。
痛みすら感じないAIと同じ価値観や意図を共有できないのは当たり前ですよね。
でも、たとえ痛みを感じるAIをつくったとしてもまだ足りません。
次に必要なのは、他人の痛みや苦しみを理解することです。
他人の痛みを理解できて、初めて利他的な行動が取れます。
じゃぁ、それはどうすればいいんでしょう?
これは、結構、複雑です。
この話は長くなるので、次回、詳しく説明します。
はい、今回は、ここまでです。
面白かったらチャンネル登録、高評価お願いしますね。
それから、今回の動画で紹介した意識の仮想世界仮説に興味がある人は、よかったらこちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに!