第436回 サルでも作れる汎用人工知能の作り方 基礎編


ロボマインド・プロジェクト、第436弾!
こんにちは、ロボマインドの田方です。

ただでさえ、変化が早いAI業界ですけど、2023年はそれがさらに加速しました。
ChatGPTの登場です。
これで汎用人工知能が見えてきたって意見もあります。
AGIともいいますけど、人間のように何でもできる人工知能のことを汎用人工知能といいます。
分かりやすく言えば、四次元ポケットがないドラえもんです。
意識や心をもっていて、ふつうの人間と違いがないAIです。

ChatGPTの延長で汎用人工知能が生まれると思ってる人もいます。
ただ、ほとんどの研究者はChatGPTは意識をもってないと思っていますし、何かブレイクスルーが起こらないと汎用人工知能は生まれないと思ってます。
そこで、今回は、今のAIに何が足りなくて、汎用人工知能が生まれるには何が必要かを、2回に分けて、ものすごくわかりやすく解説します。
それも、3年以内に作れる汎用人工知能です。
これが今回のテーマです。
サルでも作れる汎用人工知能の作り方
基礎編
それじゃぁ、始めましょう!

汎用人工知能の反対は特化型人工知能です。
特化型人工知能っていうのは、将棋とか文章生成とか、何かに特化した人工知能です。
実は、汎用人工知能と特化型人工知能とは、考え方が根本的に違うんです。
特化型人工知能って、将棋に勝つか、自然な文章を生成するとか、実現したい機能が明確です。
でも、汎用人工知能が目指すのは人間の心そのもので、何かの機能を目指すってわけじゃありません。

たとえば、ChatGPTが大学入試に合格したっていいますけど、ChatGPTを新入社員に雇うってことないですよね。
なぜかというと、いざ一緒に働くとなると、ChatGPTにはできないことが多すぎるんです。
つまり、大学入試以外のとこに、人として大事なものがあるんです。

そう考えると、なぜ、今のAIの延長から汎用人工知能が生まれないのかがわかります。
それは、今までのAIは、明示的に測定できることだけを指標にしてたからです。
ChatGPTなら、大量の文章を学習することで次に来る単語を高精度に予測できるようになりました。
たとえば、「リンゴの色は○○」って文章があって、○○には「赤い」が入るって予測できるようになりました。
こんな単純な仕組みでも大量の文章を学習させることで、自然か会話ができるようになりました。
これが大規模言語モデルです。
ただ単語の並びから次の単語を予測するだけなので、当然、言葉の意味も理解していません。
そもそも、ChatGPTは現実世界を経験していないので、「赤い」といっても「赤い」感じがどういうものかわかっていません。

そこで、最近はやってるのがマルチモーダルAIです。
マルチモーダルAIというのは、テキストだけでなく、画像や音声、動画といったものまで学習させることです。
たしかに、文字だけでなくて、視覚や聴覚まで含めて学習するので、現実世界を経験してるといえそうです。
ただ、これでも、まだうまく行かないんです。
たとえば、視覚とか聴覚とか五感を全て学習したとします。
でも、それって、動物も同じですよね。
でも、動物は人間みたいに会話しませんそ、教えても人間みたいに会話できるようになりません。
つまり、マルチモーダルで学習したからといって、人間のような意識や心が生まれるわけじゃないんです。
なんでかって言うと、意識とか心って、五感とか感覚器にあるんじゃなくて、その奥にありますよね。
つまり、画像とか音声とかって入力データが重要なんじゃなくて、その奥で、入力データをどんなふうに処理するかの方が重要なんです。
今のAIの処理の中身は機械学習です。
多くのAI研究者が考えてるのは、入力データの種類を増やすことだけです。
でも、それじゃ、汎用人工知能は生まれないんです。
入力データの種類じゃなくて、データの処理の中身。
ここを変えないと汎用人工知能は生まれないんです。
これがブレイクスルーです。

じゃぁ、どう変えるのか?
これが、今のAI業界では誰も分かっていません。
僕は、20年以上前AIの研究をしてたので、ディープラーニング以前のベイズ推定のころからリアルタイムでAIの最先端は見続けていました。
ただ、僕は一貫して、機械学習を中心としたAIだけじゃ心は生まれないと思っていました。
機械学習でできるのは動物の心までで、人間の心をつくるには、さらに別のデータ処理を追加しないといけないと思っています。
じゃぁ、それは何か?

それを行ってるのは脳です。
だから、脳内でどのように処理されるかを、まず解明すべきなんです。
そこで、次は脳内の処理について考えてみます。
視覚の情報処理はかなり分かってきています。
目の網膜の画像情報は後頭葉の一次視覚野に送られます。

そこから側頭葉の腹側視覚路と頭頂葉の背側視覚路の二つに分かれて処理されます。

このうち、側頭葉では多数の要素に分析されます。

たとえば、側頭葉には十字とか四角って形に反応する脳細胞があります。
さらに、これらのを組み合わせることで、目や鼻といった複雑な形を認識します。

たとえば、赤いところでは、目や鼻を組み合わせた顔の形に反応します。
これだけじゃないですよ。
ある患者からは、トム・クルーズだけに反応するトム・クルーズ細胞まで見つかっています。
トム・クルーズ細胞は、トム・クルーズの正面の写真だけじゃなくて、横顔とか、なんと、「トム・クルーズ」って文字を見ても反応するそうです。
脳科学では、既にここまで解明されてるんです。
さらに、ここ数年、脳に電極を埋め込んで脳の活動を直接観察するBMI、ブレイン・マシン・インターフェイス技術も盛んに研究されています。
このまま脳科学の研究が進めば、汎用人工知能もできそうですよね。
ところが、そうはいかないんですよ。

脳科学で分かってるのはここまでなんです。
こっから先が分からないんですよ。
こっから先ってのは、トム・クルーズがどうしたかとかです。
たとえば、「ミッション・インポッシブル、どこがおもしろかった?」って聞かれて、「トム・クルーズがビルを登るんだけど、途中で、落ちそうになってヒヤッとするのよ」って答えたとします。
でも、その時の脳のどこを探してもこんな映像は見つからないんですよ。

でも、伝えいたいことって、これですよね。
これをどうやって処理してるか分からないと心はつくれないんですよ。
脳を観察して分かる限界は、トム・クルーズ細胞までなんです。
トム・クルーズに何が起こったかって思い浮かべてるとき、脳のどこでどんなふうに処理してるかは分からないんです。

ただ、脳の配線はかなりわかってきてます。
そこで、じゃぁ、脳そのものをコンピュータで再現したら、脳がどんなふうに処理してるのかわかるんじゃないかって思いますよね。
うまく行けば、そのコンピュータは意識や心が発生するんじゃないかって思いますよね。
実は、この10年、脳そのものをコンピュータ内で再現しようってプロジェクトが世界中で行われているんです。
一番有名なのは欧州のヒューマン・ブレイン・プロジェクトです。
予算は10億ユーロ、日本円にして約1600億円です。
ところが、思った成果がほとんど上げられなかったとして、このプロジェクト、去年終了しました。
つまり、脳細胞を追及しても、意識や心に辿り着かないってことです。

マルチモーダルで学習してもだめ。
脳細胞を観察してもダメ。
じゃぁ、どうすれば意識や心が解明できるんでしょう?

意識って、今、こうして感じてるものですよね。
これは、顕微鏡とかMRIで観察できるものじゃないですよね。
そうじゃなくて、本人が感じるものです。
つまり、内側からの視点です。
この視点が今のAIや脳科学には欠けてるんですよ。

じゃぁ、どうやったら内側からの視点を解明できるか?
こっからが本題です。
僕の取ってるアプローチを紹介します。

僕も脳科学の研究にヒントにしています。
ただ、それは客観的なデータより、本人がどう感じたかってことです。
たとえば脳が損傷した患者が、どんなふうに世界を感じるようになったかとか。
脳のどこが損傷すると意識がなくなるとか、時間を感じなくなるとか。
記憶喪失になると、自我はどうなるのか?
多重人格は、どんな風に感じるのか。
これこそが、まさに、心でしょ。
だから、このチャンネルではそんな動画が多いんです。
逆に、AI研究者で、ここに注目してる人はいないんですよ。
せいぜい、ChatGPTに意識はあるかって漠然とした議論だけです。

それじゃぁ、こっからは意識の具体的な議論をしていきますよ。
今、皆さんは、机があるとか、壁があるとかって見えてますよね。
そう感じてるのが意識です。
じゃぁ、はたして、ほかの動物も、みんな同じように感じてるんでしょうか?
もし、違うとしたら、どう感じてるんでしょう?
少なくとも、人間と同じように世界を感じるAIを作らないと、コミュニケーションがとれないですよね。
会話とか、自然な文章を生成するとかって、それは一番最後です。
それよりも重要なのは、目で見た世界を脳内でどんな風に認識するかです。
それをすっ飛ばして、テキストデータだけ学習させて、自然な文を生成できましたって喜んでても汎用人工知能は生まれません。

それじゃぁ、人間の意識は、どんな風にして世界を認識してるのか?
それがわかる脳障害の症例を紹介します。
それを、盲視と言います。

盲視というのは、脳の一次視覚野が損傷して目が見えなくなった障害です。
その人の目の前にリンゴを出して、「何が見えますか?」って聞いても「見えないのでわかりません」って答えます。
今度は、黒板をレーザーポインターで示して「光の点がどこにあるか分かりますか?」って聞きます。
もちろん「見えないのでわかりません」って言いますけど、「あてずっぽうでいいので指差してください」っていいます。
すると、ちゃんと光の点を指差すんですよ。
これが盲視です。

一次視覚野に送られた視覚情報は頭頂葉と側頭葉の二つに処理が分かれましたよね。

このうち、頭頂葉の経路は位置や動きを分析する経路で「どこの経路」と言われます。
側頭葉の経路は、色や形を分析するので「何の経路」と言われます。
さっき、側頭葉で単純な形から複雑な形まで分析して、最終的にはトム・クルーズを判定するって言いましたよね。
これが何の経路の処理です。

さて、盲視患者は、一次視覚野が損傷してるから見えないわけです。
実は、網膜からの情報は視覚野に行く経路とはべつに 上丘を介して頭頂葉の「どこの経路」に行く経路も存在するんです。

つまり、盲視患者は、「どこの経路」にはつながってたから指差しって行動ができたんです。
でも、側頭葉の「何の経路」に処理がすすめないから見えないって言ってたんです。
ここ、注意してくださいよ。
今「見えない」って言いましたよね。
じゃぁ、「見えない」って言ったのは誰です?
本人ですよね。
これは、意識といってもいいです。
意識が、見えないって感じたわけです。
意識は、光の点も見えないって言いましたよね。
でも、指差しはできましたよね。

これ、どういうことかわかりますか?
意識が、脳の中のどこにあるか特定できるってことですよ。
じゃぁ、それはどこか?
それは、「何の経路」の先です。
逆に言えば、「どこの経路」の先には意識はないんです。
じゃぁ、「どこの経路」の先には何があるんでしょう?
それは、体です。
「どこの経路」は、意識を介さずに、直接体を制御して、体を動かすんです。
だから、意識に関係なく体が動いたんです。

もう一つ重要なことを言います。

さっき、網膜からの情報は上丘を介して頭頂葉の「どこの経路」に進むって言いましたよね。
実は、この経路、進化的に古くからあるってことは分かってるんです。
つまり、「どこの経路」は進化的に古いんです。
逆に、「何の経路」は進化的に新しいんです。
そして、「何の経路」の先に意識があるんでしたよね。
つまり、意識とは、進化的に新しい生物が獲得したと言えるんです。
逆に言えば、進化的に古い生物は意識がないといえるんです。
つまり、意識なしで生きてるんです。

いままで漠然としてた意識というものが、具体的にどんなものかわかってきたでしょ。
内側からの視点に注目すると、こういうことがわかってくるんです。
この視点が、今までのAI研究になかったわけです。

もう少し進めますよ。
盲視の話、もう一つ、興味深い話があるんですよ。
盲視患者は、レーザーポインターの光の点は指差せましたよね。
今度は、レーザーポインターを消してから「今、光の点がどこにあったか指差してください」って聞いたんです。
そしたら、途端に正確に指差せなくなったんですよ。
これ、何を意味するかわかりますか?

これ、「どこの経路」は記憶ができないってことなんですよ。
たとえ一瞬前のことであっても、世界を覚えることができないんですよ。
つまり、「どこの経路」は今、この瞬間の世界しか認識できないってことです。
もっと言えば、「どこの経路」には過去って時間が存在しないんです。
もちろん未来も存在しません。
つまり、時間って感覚をもてるのは、意識があるからっていえるんですよ。

整理します。
人の脳は、「どこの経路」と「何の経路」の二種類の情報処理の経路があるわけです。
そのうち、「何の経路」の先に意識があります。
「どこの経路」には意識がありません。
これは、無意識といってもいいでしょう。
そして、意識は進化的に新しい生物が獲得したものです。

これは脳の進化の系統図です。
水色が大脳です。
これを見ると、哺乳類以降、大脳が発達してるのがわかりますよね。
おそらく、意識大脳にあると思います。
だから、僕は、哺乳類以降は意識をもってると思っています。

そして、意識は「何の経路」にあります。
「何の経路」は、ものの色や形を分析する経路で、目の前に「りんごがある」と思える処理をするのが「何の経路」です。
「何の経路」は、今、目の前にあるだけじゃなくて、一瞬前にあったものも認識できます。
脳何には、もう一つ、光の点を指差したりする「どこの経路」もあります。
これで準備が整いました。
次は、これをコンピュータで再現可能な具体的な情報処理のモデルとして考えてみます。
それが、この図です。

僕は、脳内の処理を「ある系」と「反応系」の二種類の処理に分けました。
「ある系」というのは、「ものがある」って意識が感じる処理で、「何の経路」にあたります。
「反応系」というのは、光の点を指差すとかって「どこの経路」のことです。
光の点を指差すとかって、現実世界への反応なので「反応系」と名付けました。

さて、ここで、一番重要な話をします。
それは、「ものがある」と感じるとはどういうことかってことです。
ここで、最も重要な概念として、「仮想世界」って概念を提案します。
「仮想世界」というのは、意識が直接認識する世界で、現実世界をそっくりそんまま再現したものとなります。
コンピュータなら、たとえば3DCGで再現します。
たとえば目の前にリンゴがあったとしたら、それをカメラで撮影して、その画像データから3Dのリンゴオブジェクトを仮想世界に作ります。
そうすると、意識は、仮想世界を認識する一種のプログラムとなります。
意識プログラムは、そのリンゴオブジェクトのデータを受け取ります。
リンゴオブジェクトは、位置データや色や形のデータを持っています。
意識プログラムがリンゴオブジェクトのデータを受け取って、目の前に「リンゴがある」って思うわけです。
これが意識をもった生物が行ってる脳内の処理です。
または、意識は、「ものがある」って形で世界を認識してるとも言えます。
逆に言えば、進化的に古い生物は、こんな風に世界を認識してないわけです。
じゃぁ、どんな風に認識してるかっていうと、認識した瞬間に体が動いてるって感じです。
たとえば、カエルが目の前にハエがあると認識した瞬間、体が反応して捕まえてるとかです。
これが反応系だけで生きてる生物です。

さて、この意識モデルは本当に正しいんでしょうか?
さっきのレーザーポインターの話で検討してみます。
レーザーポインターを消すと、たった今まで光ってた点を指差しできなかったですよね。
「反応系」は、現実世界に直接反応して行動します。
だから、現実世界から光の点が消えると指差しできません。

じゃぁ、「ある系」はどうでしょう?
「ある系」では仮想世界に現実世界を再現するんでしたよね。
仮想世界を作ってるのは自分の脳です。
だから、たとえ現実世界から光の点が消えたとしても、その仮想世界を保持しておけば、さっきまで光ってた位置を覚えておくことができますよね。
だから、「ある系」だと、消えた光の点を指差すことができるんです。
ねぇ、盲視患者の行動がちゃんと再現されたでしょ。

これが、内側からの視点で意識や心を解明するってことです。
この方法なら、かなり具体的な意識モデルを構築できるってわかりましたよね。
ChatGPTは意識があるのか、ないのかって漠然とした議論じゃなくて、何をもって意識とするか具体的なモデルまで作ることができるんですよ。
今回の話で、意識が世界を認識するとはどういうことかってわかりましたよね。
意識が認識してる世界を文字におきかえたものが言葉です。
ここまでできて、初めて、言葉とは何か、意味を理解するとはどういうことかって議論ができるんです。
世界を認識するとはどういうことかを定義せずに、ただ単に、単語をうまく並べて文を生成できるようになったって言ってても意味ないって分かりますよね。
次回は、いよいよ、意識や心をもって会話ができる汎用人工知能の作り方です。

はい、今回はここまでです。
おもしろかったらチャンネル登録、高評価お願いしますね。
それから、意識モデルの中心となる意識の仮想世界仮説に関しては、こちらの本で詳しく解説してますのでよかったら読んでください。
それじゃぁ、次回も、おっ楽しみに!