第331回　プロジェクト・エデン始動

ロボマインド・プロジェクト、第331弾！
こんにちは、ロボマインドの田方です。

2023年、ロボマインドは、新しいプロジェクト、プロジェクト・エデンをスタートさせます。

さて、失語症には、ウェルニッケ失語とブローカー失語の二種類があります。
ブローカー失語は、言いたい言葉が出てこなくて、たどたどしくなってうまくしゃべれません。
一方、ウェルニッケ失語は、流暢に話せて、一見、何の問題もないように見えます。
たとえば、Ａさんの場合、こんな感じです。

「どこか、具体が悪いとこはないですか？」
「そうですね。特に、悪いとこはないですね」
「家族はいますか？」
「はい、いますよ」
「何人ですか？」
「えーと、三人です」
「お母さんはお元気ですか？」
「元気ですよ」
「お母さんはいくつになられましたか？」
「３０、いや、３３かなぁ」

特に、何も問題なさそうですよね。
でも、この人は、じつは、右半身が麻痺してて、寝たっきりなんですよ。
とても、「悪いとこはない」ってもんじゃないです。
家族も、本当は４人です。
お母さんは、とっくに亡くなっています。
Ａさんは５６歳ですから、お母さんが３３歳のはずがありません。

この人は、こう聞かれたら、こう答えるって会話のパターンで答えてるだけです。
つまり、言葉の意味を理解していないんですよ。

これで僕が思い出したのは、今、話題の会話AI、ChatGPTです。
どんな話題かって言うと、ChatGPTを開発したOpenAIが株式公開買い付けすると、評価額が3兆9千億円になったり、マイクロソフトがOpenAIに100億ドル追加出資すると言ってるそうです。
さらに、マイクロソフトが、自社の検索エンジンBingにChatGPTを搭載するといえば、Googleは、急遽、ChatGPTに対抗するって声明を出したりしてます。
なぜ、ChatGPTをめぐって、これだけの争いが起こってるかというと、ChatGPTは、次世代の人工知能、汎用人工知能になると目されているからです。
汎用人工知能というのは、人間と同じ能力を持った究極のAIです。
もし、汎用人工知能が実現できれば、AIと普通に会話したり、悩み事を相談したりってことが起こります。
つまり、我々の生活は、間違いなく変わります。
世界が激変するんです。
今後の世界がどうなるか、ChatGPTにかかってるわけです。

じゃぁ、このChatGPTがどうやって文章を生成するかというと、単語の並びから、次の単語を予測してるんです。
「日本　の　首都　は」って来たら、次は、「東京」って予測するわけです。
これを、大量の文書から学習してるんです。

ということはですよ。
これって、意味を理解してるわけじゃないんですよ。
つまり、ウェルニッケ失語と同じなんです。
何も考えずに、単語の並びのパターンで、答えてるだけなんですよ。

そう考えたら、これが汎用人工知能になるとは、ちょっと思えないでしょ。
まぁ、検索エンジンは、意味を理解してなくても答えられるので、検索エンジンの延長で使うのは悪くないと思います。
でも、出来るのはそのぐらいでしょう。
ドラえもんみたいに普通に会話したり、親友になるのは無理です。

じゃぁ、なんで、ChatGPTは、言葉の意味が理解できないんでしょう。
それは、ChatGPTが学習してるのが文書だけだからです。
つまりね、ChatGPTが生きてる世界はテキストだけの世界なんです。
だから、「机があります」って言っても、「机」とか「ある」ってテキストとしか認識してないんです。
机がどんなものかとか、「ある」とか「存在する」ってどういうことかって、意味は理解してないんですよ。

でも、僕らは、この世界に生きてますよね。
手や足を使って動ける三次元世界です。
さらに、喜んだり、悲しんだりって感情も持ってます。
あれがしたい、これが欲しい思います。
そして、それを表現したのが言葉です。

同じ世界を生きて、同じ心をもってるから、相手の気持ちを理解できるんです。
「大切な家族が亡くなって悲しんでるんだなぁ」って相手の気持ちを理解できるんです。
単語の並びだけで会話するAIとじゃ、心が通った会話なんか、できないですよね。

じゃぁ、僕らと同じような心を持ったAIは、どうやったら作れるんでしょう。
それには、まず、僕ら人間と同じ世界で生きている必要があります。
次に、その世界で人間と同じように動ける体も必要です。
そして、人間と同じ感情も持たせます。
つまり、AIと人間が同じ世界を共有して、その世界で、一緒に動いて、泣いたり、笑ったりできないといけません。
そんな世界を創れば、僕らはAIと心を通わせることができますよね。
でも、そんな世界、創ることできるんでしょうか？

できます。
メタバースなら可能です。
そんなメタバースを作ろうと思っているんですよ。
心をもったAIと人間が一緒に暮らす楽園。
その楽園の名は、「エデン」。

これが今回のテーマです。
プロジェクト・エデン
それでは、始めましょう！

ChatGPTの問題は、テキストデータしか学習してないことでしたよね。
でも、人間は、この三次元世界を生きています。
そこで、３DCGのメタバースを創ろうとしてるわけです。

ただ、3次元世界を認識することが重要なわけじゃありません。
それだけなら、既にマルチモーダルAIがやっています。
マルチモーダルAIというのは、テキストと画像と音声とか、複数種類のデータを学習させるAIです。
ただ、動物も、昆虫も、マルチモーダルに学習してますけど、言葉をしゃべりません。
つまり、マルチモーダルに学習したら言葉をしゃべれるようになるわけじゃないんですよ。
重要なのは扱うデータの種類じゃなくて、データをどう処理するかです。
つまり、脳の中でデータをどう処理するかです。

ChatGPTはディープラーニングを使った機械学習です。
ディープラーニングの基本はニューラルネットワークです。
脳もニューロンでできてますから、ディープラーニングは脳と同じ処理をしてると思ってる人もいますが、全然違います。
たとえば、脳には、意識と無意識があります。
意識は、起きてるとき、僕らが感じてるものです。
考えたり、言葉をしゃべったり、体を動かしたりとかです。
一方、その裏で、意識じゃ感じられない脳の処理もありますよね。
心臓を動かしたり、熱い鍋に触って、思わず手を引っ込める反射反応とか。
これらが無意識の処理です。

ニューロンって、脳の一番低レベルの構造です。
でも、重要なのは、低レベルの構造を同じにすることじゃなくて、情報の処理の仕方を同じにすることです。
それが、意識と無意識で処理を分けるとかです。
でも、ディープラーニングは、そういった分け方をしてません。
このことからも、ディープラーニングは人間の脳の処理と違うといえます。
プロジェクト・エデンでは、意識と無意識の違いとか、そういったとこまで、忠実に人間の脳と同じように処理するAIを作ろうとしてるんです。

それじゃぁ、人間と同じ心を持ったAIって、具体的に、それはどんなAIなんでしょう？
いきなり大人みたいに、難しい概念を理解できるAIは無理です。
かといって、生まれたての赤ちゃんじゃ、まだ、世界を認識していません。
そこで、最初に作るのは、言葉を覚えて、笑ったり、泣いたりって感情を持った5～6歳の子供とします。
想定してるシナリオは、ジャンケンをして勝ったら喜んで、負けたら泣く子供です。
「えぇ、それだけ？」って思うかもしれませんけど、これができれば、あとは、知識や感情を追加することで、どんどん人間に近づいてきます。

ベースとなるシステムは、今まで作ってきたマインド・エンジンです。
マインド・エンジンは、意味理解できる自然言語処理システムとして開発してきました。
ただ、会話システムを想定していたので、入力はテキストデータでした。
今回は、それを拡張して、外の世界から作ろうとしてるわけです。
外の世界というのがメタバースです。
そして、そのメタバースの中には、人間のアバターと、AIアバターが存在します。
人間のアバターも、AIアバターも、メタバースから得られる情報は全く同じです。
同じ光景を見て、同じ音声を聞いたり、テキストデータを受け取ったりします。
そして、それらのデータを受け取るAIアバターの心がマインド・エンジンです。

マインド・エンジンは、目を持っていて、目からメタバースの映像が入力されます。
可能な限り、人間の脳内の処理を再現しようとしてます。
普通のメタバースは、アバターを操作しやすいように作られます。
でも、プロジェクト・エデンは、メタバースで暮らすAIアバターが、脳内で、どんな処理をするかを設計できるように作られます。
これだけじゃ、よくわからないと思うので、マインド・エンジンの画面を見ながら説明します。

これが寝てるときのマインド・エンジンです。

寝てるときは意識がなくて、最低限の無意識だけが動いています。
この現実世界は、目から見える世界のことです。
真っ暗なのは、瞼を閉じてるからです。

これが起きたときのマインド・エンジンです。

目が開いたので、現実世界が見えます。
今、自分の部屋が見えてます。

それから、意識が起動しました。
それと、現実仮想世界も起動しました。

さて、こっからが、一番重要な話になります。
世界とは何かって話です。

マインド・エンジンの基本となる考えは意識の仮想世界仮説です。
意識の仮想世界仮説というのは、僕が提唱する意識モデルです。
人は、目で見た世界を頭の中で仮想世界として構築します。
意識は、その仮想世界を介して現実世界を認識します。
これが意識の仮想世界仮説です。

これが、なかなか伝わりにくいんですよ。
皆さん、今、目の前の世界を見てますよね。
これが現実だと思っていますよね。
これが仮想世界だって言われても、意味、分からないですよね。

ちょっとややこしい話をしますよ。
皆さんは、現実世界が存在すると思っていますよね。
そして、それを見てると思ってますよね。
じゃぁ、現実世界を見てるのは何ですか？
目ですよね。
たとえば、机を見てるとしましょ。
その机は、目の前、たとえば１ｍ先にあるって感じてるとしましょ。

でも、よく考えたら、これっておかしいんですよ。
だって、机は目の裏の網膜に映ってるんですよ。
もし、意識がそれを直接感じてたら、机は目の裏に張り付いてるって感じるはずです。
でも、そう思わないでしょ。
そう思わないってことは、意識は、目で見たものを直接見てないってことです。
まず、この点を理解してください。

じゃぁ、どうすれば、１ｍ先に机があるって感じられるんでしょう。
そこで、三次元世界を創るわけです。
三次元世界には、奥行きとか、長さがありますよね。
そして、重要なのは、自分の目の前、１ｍ先にあるって感じてることです。
つまり、その三次元世界には、自分の体もあるわけです。
これらのデータが揃って、初めて、自分の目の前１ｍ先に机があるって感じられるわけです。

さて、今度は、これをコンピュータで作るとしたらどうしたらいいでしょう。
それは、３DCGで作れば可能です。
３D空間に、３Dオブジェクトの机と自分を配置するわけです。
机を、自分の１ｍ先に配置するわけです。
そうすれば、自分の１ｍ先に机があることになりますよね。

ここ、もう少し詳しく見ていきますよ。
AIの意識はプログラムです。
オブジェクトというのは、位置とか色とか大きさといったデータの集まりです。
意識プログラムは、机オブジェクトの位置データを読み出すわけです。
これが、目の前１ｍ先に机があるって感じるってことです。
重要なのは、データを読み出すってとこです。
３DCGとかの見た目は、重要じゃないんです。

いいですか。
オブジェクトの実体は、メモリ上にあるデータです。
そして、意識プログラムは、そのオブジェクトのデータを自由に取得することができます。
僕らは、机があるって感じますよね。
これは、マインド・エンジンでいえば、意識プログラムが、メモリ上の机オブジェクトにアクセスしたってことです。
僕らが、１ｍ先に机があるって思うのは、意識プログラムが、机オブジェクトの位置データを取得したってことです。

ねぇ、こうすれば、僕らの意識が感じてることと同じことを忠実にプログラムで再現できるでしょ。
これがプロジェクト・エデンです。
テキストデータしか認識できないChatGPTじゃ、絶対にできません。
この考えを拡張していけば、人間と同じ心を作れるわけです。

今回は、机があるって感じるとこまでです。
次回は、ジャンケンをするってとこを解説したいと思います。
ここで、意識と無意識の根本的な違いを説明します。
その話を聞けば、ディープラーニングから意識が生まれない理由がわかると思います。
それから、今回紹介した意識の仮想世界仮説に関しては、こちらの本で詳しく説明してるので、よかったら読んでください。

はい、今回の動画が面白かったらチャンネル登録、高評価、お願いしますね。
それじゃぁ、次回も、おっ楽しみに！