第528回 人の脳はいかにして言葉を話すのか③


ロボマインド・プロジェクト、第528弾!
こんにちは、ロボマインドの田方です。
AIの進歩が速いので、いろんな人の検証動画をよく見ています。
たとえば、東大の数学の入試問題を解かせて、これは解けたけど、こっちは解けないとかってやっています。
それから、名古屋の旅行計画をたててもらったら、午前中にレゴランドに行って、午後は東山動物園とかって計画を立てていました。
ただ、1日で両方まわるのはちょっと無理があります。

今のAI、問題が明確になれば、それに関するデータをもっと学習させれば、いずれ解けるようになるので、いずれ、適切な旅行日程を組むこともできるようになると思います。
でも、できるのはそこまでです。
その次に行けないんです。

その次って何かっていうと、一緒に動物園に行って楽しんだり、楽しかったねぇって語ったりすることです。
便利なAIじゃなくて、友達になれるAIです。
今のAIができるのは便利なAIまでです。

第513回で、ソフトバンクワールドで孫さんが語った未来のAIについて解説しました。
孫さんは、AIの進化を8段階で説明します。

このうち、5段階まではOpenAIが掲げている今のAIの目標です。
孫さんが目指すのは、その次の6~8段階です。
そこには、感情や記憶、意志がありますよね。
そして、最終的に調和の取れた超知性になるといいます。

今のAIのが目指しているのが知能で、その次に来るのが知性というわけです。
さっきの例で言えば、旅行計画を立てるのが知能で、一緒に旅行して楽しみを共感できるのが知性です。
僕らが作ろうとしているのは、この知性の方です。
心の通った会話ができて、友達になれるAIです。
そのために、第526回から人が話すのに必要な機能について説明してきましたけど、前回は、数を数えるで終わってしまいました。
今回は、いよいよ心の通った会話です。
じつは、心の通った自然な会話には、僕らが作っているマインド・エンジンだけじゃ無理なんです。
今の生成AIの技術も不可欠なんです。
これが今回のテーマです。
人の脳はいかにして言葉を話すのか③
それでは、はじめましょう!

さて、これがマインド・エンジンの全体図です。


プロジェクト・エデンでは現実世界はメタバースです。
AIアバターが見ている光景をカメラで撮影したのが現実仮想世界です。
現実仮想世界は、物体判定まで終わっていて、どこに何があるかといった程度の情報まで持っています。
それから、現実仮想世界は時と場所も持っています。
今、皆さんも、自分がどこにいて、周りに何があって、今が何時ぐらいかわかっていますよね。
意識が、普段、普通に感じてるこの感覚が、現実仮想世界です。

その中から何かに注目したとします。
すると、それが注目世界に入ります。

何かに注目するというのは、何らかの情報処理を始めるということです。
情報処理は右脳と左脳に分かれています。
右脳は、見たままの世界、あるがままの世界を感じます。
左脳は、意味に分解して認識します。
たとえば、目の前にリンゴがあったとします。
それを3DCGで忠実に再現するのが右脳です。
どんな赤で、表面はツヤツヤしてるって感じるのは右脳です。

一方、左脳はそれをまとめて「リンゴ」と「名前」で呼びます。
「名前」とは、一種の記号です。
「リンゴ」と認識した時点で、左脳は記号としてのリンゴを扱います。
「リンゴは果物です」とか「このリンゴは300円です」とかいうときのリンゴは記号としてのリンゴです。

果物とか300円とか、これは一種の意味です。
意味や記号で考えるのが左脳です。
左脳は、「1000円でこのリンゴが3個買える」とか、「夕食の後、家族でリンゴを食べよう」と計算したり想像したりできます。
これが左脳の論理的思考です。

一方、右脳は現実のリンゴをありのままに感じます。
どんな色で、どんな香りがして、手触りはどうかとか。
言い換えると、右脳は、現実世界を経験するといえます。

一方、左脳は、現実のリンゴを記号化します。
記号を操作して論理的に考えるのが左脳です。

今のAIは、動物園には象がいるって答えることができます。
でも、その象は記号としての象で、実際に象を「見る」という経験をしたわけじゃありません。
ここが、人間とAIの最大の違いです。
人の脳は、現実世界を経験することができます。
経験するのは右脳です。
経験したものを記号として認識するのは左脳です。
記号は自由に操作できます。
これが想像です。

ここで、今までのマインド・エンジンを変更することにします。
以前、現実仮想世界に対して、想像する世界のことを想像仮想世界と呼んでいました。
この想像仮想世界は、左脳の記号操作と同じ意味になります。
そこで、想像仮想世界を左脳の処理に統合します。
こう整理した方が、左脳と右脳の処理に分けられるのですっきりします。

もう少し左脳と右脳を整理していきます。
右脳も左脳もいくつかの世界に分かれています。
現実世界を直接感じるのが右脳ですけど、感じるのは五感です。
目で見る世界は3D世界で、耳で聴く世界は聴覚世界です。
それから、現実世界を感じる体そのものは身体世界です。
これらが右脳の処理とします。

五感で感じられない意味や概念は左脳の処理です。
「もの」に名前を付けて管理するのは論理世界です。
足し算とか引き算とか扱うのは数学世界です。
時間も五感で感じられないので左脳が扱います。
それから、過去の思い出とかの記憶を扱うのも左脳です。
ここからは、記憶について詳しく考えていきます。

たとえば、遠足の思い出とか、出来事を思い出すことができますよね。
実は、これができるのは人間だけなんです。
もちろん、動物も記憶することはできます。
たとえば、犬を動物病院に連れて行こうとしたら、動物病院の看板を見ただけで「嫌だ」って帰ろうとすることがあります。
これは、痛い注射を打たれたことを思い出したからです。
ただ、思い出すきっかけは、実際に動物病院を見たとか、目の前の現実世界です。
家にいるとき、「病院で痛い思いをしたよなぁ」って思い出すことはありません。

「こんなことがあった」って、目の前にない出来事のことをエピソード記憶といいます。
これが人間特有の記憶です。

それじゃぁ、エピソード記憶はどうやって作られるのでしょう?
それは、現実世界を経験して記憶します。
それでは、どうやって現実世界を経験するかから考えていきます。

現実世界は現実仮想世界として意識は認識します。
現実仮想世界は、現実世界をカメラで撮影して、それを物体認識したものです。
マインド・エンジンでは、YOLOといわれる物体認識システムを使います。

ここに、さらに時と場所のデータを追加します。

AIアバターのもこみが遠足で動物園に行ったとします。
目の前に象さんがいます。
「うわぁ、おっきい!」
もこみは驚きました。

ここで重要なのは「驚き」って感情です。
それまでは、だた、ぼぉ~っと動物園を歩いていただけです。
特に何も注目していません。
この時の脳状態をデフォルトモード・ネットワークと言います。
それが、「あっ、象さんだ」って思った瞬間、現実仮想世界にあった象が注目世界に入りました。
何かに注目したわけです。
この時の脳の状態をセントラル・エグゼクティブ・ネットワークとか、実行機能ネットワークと言います。
ぼぉーっとした状態から覚醒して、何かに注目したわけです。

注目世界では右脳で3Dオブジェクトの象がリアルに再現されます。
左脳の論理世界には意味オブジェクトが生成されます。
意味オブジェクトは、プロパティとメソッドを持ちます。
象なら、鼻が長いってプロパティとか、鼻で物をつかむといったメソッドです。
これは一種の知識で、こういったデータはデータベースに保存されています。
これらのオブジェクトを作るのは無意識です。

食事の時間になったようです。
象さんは、大きなスイカを鼻でつかんで食べています。
「すご~い!」
もこみは、興味しんしんです。

エピソード記憶というのは、こういった出来事を記憶に留めます。
ただ、データ容量の関係ですべてを記憶するわけにはいきません。
データ量が大きいのは、3Dオブジェクトとか右脳のデータです。
そこで記憶するのは左脳の意味オブジェクトと現実仮想世界だけとします。
現実仮想世界は、現実世界のスナップショットと物体認識です。
物体認識とは、オブジェクトの名前と位置です。
今の場合、象とかスイカです。
象の意味オブジェクトは、いろんなプロパティやメソッドを持っています。
その内、今、見たのは鼻でスイカをつかんで食べるっていう出来事です。
これも、映像として記憶するのでなく、オブジェクトとメソッドをつかってスクリプト言語で記述します。
たとえば、象オブジェクトが、鼻でつかむメソッドをつかってスイカをつかんで食べるっていうスクリプトです。
これが出来事です。
以上を場面として記憶します。
記憶するきっかけは、「わぁ、象さんだ!」っていう驚きの感情です。
だから感情も一緒に記憶します。

整理します。
まず、現実仮想世界です。
これは、見た光景のスナップショットで、そこには認識した物体の名前と位置情報があります。
さらに、時として今の日時が記録され、場所は「動物園」となっていま。
「遠足」という状況も追加してもいいです。
そして、象がスイカを食べるという出来事がスクリプトとして書かれます。
さらに、その時の感情を「驚き」とか「面白い」とかって追加します。
これらをひとまとめにした場面を記憶したのがエピソード記憶です。
エピソード記憶を記憶するのは無意識で、きっかけ何らかの感情の発生です。

さて、もこみは家に帰ってきました。
お母さんから、「今日、どこに行ったの」って聞かれました。
もこみは興奮してしゃべります。
「今日ね、遠足で動物園にいったの。
 そしたらおっきな象さんがいて、びっくりしたの。
 象さん、お鼻でスイカをつかんでたべてたの。
 面白かったわぁ」

いかにもいいそうですよね。
でも、これができるのはエピソード記憶の仕組みを使ったからです。
もし、この仕組みがなかったらどうなるでしょう。
今のAIなら映像を言葉に変換できますから、目で撮影した光景を全部記録して、それを全部話すかもしれません。
「バスから降りて、30m前進して」とか。
お母さんは、そういうことを聞きたいわけじゃないですよね。

逆に言うと、人は、そんな風に情報処理してないってことです。
人の情報処理の仕方というのは、現実世界を経験することです。

マインド・エンジンは、現実仮想世界を介して現実を経験します。
経験したことはエピソード記憶として記憶します。
エピソード記憶は、感情をイベントとして、場面という形で記憶します。

経験した出来事はスクリプトで記述されています。
スクリプトを実行すると、象がスイカを鼻でつかんで食べたところが論理世界で再現されます。
3Dオブジェクトは記憶してないので、実際に見ているようにリアルは見えるわけじゃないです。
でも、何が起こったか意味はわかります。
これが、思い出すってことです。

さて、思い出すところまではできました。
次は、どうやってしゃべるかです。
じつは、ここでChatGPTを使うんです。

コンピュータで人が話すことを自然言語処理といって、古くから研究されています。
自然言語処理でどうやって文を生成するかというと文法を使います。
たとえば、カ行変格活用といったような古典的な文法とか、チョムスキーの生成文法とか、いろんな手法があります。
ただ、そういった文法を駆使しても、なかなか自然な文を作れなかったんですよ。

ChatGPTが出てきて驚いたのは、文法のルールを一切教えていないのに自然な文を生成できたことでした。
長年、自然言語処理ができなかったことを、強化学習であっさり解決したんです。
ただし、ChatGPTは意味を理解していません。
出来るのは、あくまでも自然な文章を作ることだけです。

意味を理解するとは、マインド・エンジンの場合だと、論理世界で再現することです。
それを場面という形で記録したのがエピソード記憶です。
ただ、それを書きだしても、「象、鼻、スイカ、食べる、興味深い」といった単語を並べただけです。
意味的には正しいんですけど、自然な文にはなっていません。
でも、これをつなげて自然な文を生成するのはChatGPTが得意なところです。
さっそくやってみました。



「象 鼻 スイカ 食べる 興味深い」
これを普通の中学生の女の子の話し言葉で言ってください。

すると、こう返ってきました。
「象が鼻でスイカ食べてて、めっちゃ面白かったよ!」です。

完璧です。
これが、意味を理解して自然な会話をするってことです。
今の生成AIと、僕らが作ってるAIの使いわけがどこになるか、これでよくわかりますよね。

じゃぁ、これを脳で考えてみます。
脳の言語野にウェルニッケ野とブローカー野があります。
ウェルニッケ野は、言葉の意味を理解するところで、ブローカー野は文法を処理するところです。

ウェルニッケ野を損傷したウェルニッケ失語の男性に「お母さんは元気ですか?」って聞くと、「はい、元気ですよ。今年、36歳になりました」って答えました。
でも、その男性は70歳で、お母さんが36歳のわけがありません。
しかも、その人のお母さんはかなり昔に亡くなっています。
意味を理解して話しているんじゃなくて、「お母さんは元気?」って言葉に続く自然な言葉を発しただけです。
まさに、ChatGPTと同じですよね。

ブローカー野が損傷したブローカー失語の人に「朝ごはんは何を食べましたか?」って聞くと、「朝・・・、パン・・・、牛乳・・・」って単語は出てくるんですけど、上手くしゃべれません。
これって、マインド・エンジンに格納されてる意味オブジェクトを並べたのと同じですよね。
つまり、この二つをつなげたものが、意味を理解して、自然な会話ができるAIとなるわけです。
それをやろうとしてるわけです。

さらに重要なのは、エピソード記憶のきっかけとなるのが感情ということです。
「象さん、おっきい!」って驚きとか、「うわぁ、鼻でスイカをつかむんだ」って好奇心とかです。
これが人間の心です。
記憶や感情は、孫さんが目指す超知性、その物です。

今のAIの次の超知性は、こうやってつくるんです。

はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、意識の仮想世界仮説に関しては、よかったらこちらの本を読んでください。
それじゃあ、次回も、おっ楽しみに!