ロボマインド・プロジェクト、第397弾!
こんにちは、ロボマインドの田方です。
ChatGPTが登場したときは、これで世界が変わるって一気にブームになりましたけど、最近、ちょっと落ち着いて、問題が整理されてきました。
その一つが、ChatGPTは言葉の意味を理解してるのかって問題です。
だって、ChatGPTは入力された単語に対して確率的に次の単語を予測して出力してるだけですから。
ただ、何をもって言葉の意味を理解してるのかって、実は、統一的な見解はありません。
ただ、最近良く言われるのが世界モデルって考えです。
世界モデルというのは、ヒトが頭の中で思い描いてるような世界のことです。
AIも世界モデルを持っていれば、そのAIは意味を理解してると言ってもいいんじゃないかと言われています。
これは、東大の松尾豊先生なんかも研究しています。
松尾先生が取り組んでるのはAIロボットですけど、ChatGPTも、見えないけど、内部に世界モデルが生成されてるんじゃないかってってことです。
もしそうなら、ChatGPTも意味理解してるんじゃないかって言えるわけです。
この世界モデルって考え方、このチャンネルをずっと見ている人なら分かると思いますけど、これって、僕が提唱する意識の仮想世界仮説そのものです。
違いがあるとすれば、僕がやろうとしてるのは言葉の意味理解で、松尾研が作ろうとしてるのは、世界モデルを使って最適な行動ができるロボットです。
もっと言えば、世界モデルを機械学習に使おうとしてます。
これ、せっかく世界モデルまで気づいてるのに、惜しいんですよ。
何が惜しいかについて、第392回で使った図で説明します。
人の脳の処理は、ものがあるって感じる「ある系」と、外界に直接反応する「反応系」の二種類あります。
「ものがある」って思うのは意識ですよね。
「ある」って思うために、頭の中に仮想世界をつくります。
仮想世界と世界モデルは同じものです。
じゃぁ、松尾研のロボットと何が違うかわかりますか?
それは、松尾研の世界モデルは、「意識」って概念が抜けてるんですよ。
機械学習って無意識が行う統計処理です。
意識を持たない生物でももってる反応系の処理です。
最適な行動を目的にすると、どうしてもこうなってしまいます。
でも、せっかく世界モデルまで思い至ったのに、行動だけに使うのがもったいないんですよ。
行動じゃなくて、思考に使うべきなんですよ。
そしたら、思考する主体ってなにかってことに思い至ります。
そして、それこそが、意識なんですよ。
そこに気づいたら、これはものすごいイノベーションだってなりますよね。
せっかく、ここまで気付いてるのに、もったいないなぁって思うのは、こういうことです。
さて、世界モデルとか、仮想世界とか、世界って、作ったらいいってもんじゃありません。
人と同じ心をつくるには、世界モデルの中身をどう作るかが重要です。
これが今回のテーマです。
世界モデルからAIに心が生まれるか?
それでは、始めましょう!
今見てる世界は、頭の中に作った仮想世界だ。
これが、僕が提唱する意識の仮想世界仮説です。
そんなことをずっと考えてるから、普段から仮想世界を感じるようになってきました。
たとえば、目の前にリンゴがあるとするでしょ。
これは、まず、無意識がこんな風なCGを作るわけです。
CGなので、三次元の位置のデータをもっています。
つまり、見えない裏側も丸く続いてるわけです。
意識は、このデータにアクセスできるから、裏側も丸くなってるって感じるわけです。
そして、無意識は、このCGの表面に、目からの画像情報を貼り付けます。
するとこうなります。
これが僕らが見るリンゴです。
二次元画像ですけど、丸くて、裏も丸くなってるって感じるでしょ。
それは、画像の背後の3Dデータを感じてるからです。
逆に、もし、意識が目からの二次元データしか感じれなかったらどうなると思います?
きっと、こんな風に感じるはずですよ。
こんな世界に生きてたら、会話も違ってきます。
「左から42個目、上から72個目のドットは何色に見えますか?」って聞いたりします。
でも、そんな会話したことないでしょ。
僕らがする会話って、「ここにリンゴあります」とかです。
つまり、僕らは「リンゴ」とか「お皿」といった単位で世界を認識してるってことです。
なんでそんな風に認識できるかっていうと、ドットから「リンゴ」とか「お皿」ってオブジェクトを生成して、それを認識してるからです。
これが、僕らが感じる世界は、オブジェクトで作られた仮想世界だって証拠です。
さて、仮想世界を眺めるだけじゃ、全体がふわっと感じるだけです。
でも、世界は細部までありますよね。
世界の細部を認識するには、部分に注意を向ける必要があります。
その方法については第391回で取り上げました。
たとえば、体の一部に痛みを感じたとき、そこに注意を向ける仕組みです。
これは、脳の中の注意ネットワークで実現されます。
注意は、外からの刺激で引き起こされるボトムアップ型と、意識から外に向かうトップダウン型の二種類があります。
そのうち、痛みは、外からの刺激なのでボトムアップ型となります。
ここで重要なのは、部分に注意を向けられるってことは、その前提として、世界を全体と部分で分けて管理してるってことです。
たとえば、机の上にリンゴとバナナとブドウがあったとして、「あれは何?」と指差して、「リンゴ」と答えたとします。
これができるってことは、リンゴ、バナナ、ブドウって単位で管理してて、指差した先に「リンゴ」があるからです。
でも、よく考えたら、指差した先には「空気」もありますよね。
でも、「空気」って答える人はいませんよね。
なぜかというと、無意識は仮想世界に空気まで作り出してないからです。
仮想世界にないものは意識は認識できないわけです。
さて、人は、この世界に生まれてから、世界の認識の仕方を自ら学びます。
そして、人は、誰もが同じように世界を認識してるから、「あれは何?」って質問したり、答えたり、会話ができるわけです。
何が言いたいかというと、言葉の前に、どのように世界を認識してるかって共通認識が先にあるってことです。
僕が作ろうとしてるのは、自然な会話ができるAIロボットです。
そのためには、言葉より先に、意識がどんなふうに世界を認識するかってことを教えないといけないんです。
赤ちゃんも、この世界を認識できるようになってから、言葉が話せるようになりますよね。
たとえば、赤ちゃんが、手をバタバタしたとします。
そのとき、偶然、何かに触れたとします。
こんな経験をすることで、この世界は、何もない空間と、手で触れる物体があることを理解するわけです。
それから、ハイハイすることで、どこまでも続く広い世界があるって認識するんです。
今いるのは、そのうちの一部だって理解するんです。
こういう風にして、頭の中に世界が作られていくんです。
AIの心をつくるなら、赤ちゃんが、どんなふうに世界を認識するか。
まずやるべきは、それなんです。
言葉は、その後です。
それが、正しいAIの作り方です。
ChatGPTとか、言葉だけ学習しますよね。
逆に言えば、今のAIは本当の世界を知らずに、単語だけを学習してるってことです。
これを記号接地ができてないと言います。
記号接地と言えば、第372回で紹介した本、「言葉の本質」でも取り上げていました。
今井むつみ先生のこの本、今、15万部を超えるベストセラーになってるそうです。
言語学に興味がある人はそんなにいないと思うので、おそらく、AIに興味がある人が買ってると思います。
大規模言語モデルが意味理解してるのかってことを、多くの人が疑問に思い始めてるんでしょう。
さて、第372回では、主に、この本の後半について紹介しましたけど、この本の前半は、オノマトペについて語ってます。
オノマトペって、ドンドンとか、どんぶらこって擬音語のことです。
子どもって、オノマトペをよく使いますし、絵本もオノマトペがいっぱい出てきます。
ということは、子どもは、オノマトペで世界を認識してるといえますよね。
もっと言えば、人が世界を認識するとき、最も原始的な認識の仕方がオノマトペと言えそうです。
そこから、だんだん抽象的なものも認識できるようになるわけです。
たとえば、「お片付け」なんて言葉がありますけど、これは、ちょっと抽象的な言葉です。
幼稚園ぐらいにならないと理解できません。
それより、手を「パンパン」叩くって方が具体的ですよね。
これなら2~3歳ぐらいの赤ちゃんでも理解できるので、より原始的な認識と言えるわけです。
さて、オノマトペって、一見、何かの音を指してるように思いますけど、実は、動きが本質です。
たとえば「ポイする」って言葉は、軽く投げるとか、捨てるって意味ですけど、音はしませんよね。
「リンゴ」とか「お皿」って言葉に比べて動きとか、動作というのは抽象的です。
「リンゴ」は手で触れて、はっきりわかります。
でも、動作って、手で触れないし、どこからどこまでかって境界もよくわからないので曖昧です。
だから、動作の認識は、物体の認識より抽象度が高いわけです。
でも、オノマトペとして指し示すことができるということは、一つのまとまりとして認識してるわけです。
僕らは、マインド・エンジンという心のシステムを開発しています。
これは、人間と同じように世界を認識して、言葉の意味を理解できるシステムです。
今まで、仮想世界に「もの」を生成して、「もの」を認識するところまで作りました。
次にやろうとしてるのが、動きとか動作です。
まず、最初に取り組もうとしてるのが、釘を金づちで板に打ち付ける動作です。
オノマトペなら「コンコン」ですね。
金づちが上下して、釘の頭に当たったとき「コン」と音がでます。
この繰り返しが「コンコン」です。
それでは、「コンコン」を構成してるオブジェクトは何でしょう?
まず、釘と金づちがありますよね。
金づちは上下の反復動作します。
そして、金づちが釘に当たった時「コン」って音が出るわけです。
これらを一まとまりとして認識するわけです。
一まとまりとして認識したら、それを象徴する名前をつけることができます。
それが「コンコン」です。
それから、一まとまりとして認識できるということは、意識にとったら、それは一つのオブジェクトです。
「リンゴ」って情報のまとまりを一つのオブジェクトとして認識するのと同じです。
「コンコン」は、一つの動作としてオブジェクトとして認識するわけです。
この考えが重要なんです。
机の上にいっぱい載ってる果物のうち、リンゴに注目できるのは、リンゴって一まとまりのオブジェクトとして認識してるからです。
これが世界全体から部分に注目するということです。
ただ、この場合、その背景にある世界は、静止した世界です。
ところが、今、認識した「コンコン」は、一つの動作です。
つまり、このとき前提とする世界は、動きのある世界となるわけです。
動きのある世界のうち、「コンコン」の動きに注目したわけです。
わかりましたか?
今、静止した世界から、動きのある世界に、一気に変わりましたよね。
つまり、何かに注目するということは、どんな世界を理解できるかってことを意味します。
「コンコン」に注目した瞬間、動きがある世界が理解できるようになったってことです。
これができると、今度は、逆に、音から動作をイメージできるようになります。
たとえば、「コンコン」って音が聞こえただけで、どこかで釘を打ってるのかなって想像できるようになります。
これが人間の思考です。
つまり、音センサーで「コンコン」って音を抽出しただけじゃ、世界を理解したことにならないわけです。
「コンコン」から釘を打ってる金づちをイメージできて、初めて人と同じ認識となるわけです。
それができると、さらに、どこかで大工さんが家を建ててるのかとか想像できます。
だから、「コンコン」って音を聞いて、「近所で家を建ててるの?」って自然な会話ができるようになります。
これをマルチモーダルな機械学習で「コンコン」って音データから「近所で家を建てる」ってテキストデータを関連付けても意味がいないんですよ。
人間の心を作ろうと思ったら、人と同じ認識で世界を理解できないといけません。
人が認識する最も低レベルなものは五感です。
それは、色とか音とか形のクオリアといえます。
次の段階は、そこから作られた「もの」のオブジェクトです。
たとえば「リンゴ」とか「お皿」です。
ただ、もののオブジェクトが作り出す世界は静止した世界です。
次の段階が、動作の認識です。
「コンコン」とか、「ポイする」とか、「どんぶらこ」といった動作のオブジェクトです。
動作を認識できるようになった瞬間、世界が動きだします。
そこまでできれば、これらの物や動作をつなげれば文になります。
人が頭の中で思い描くような、ああして、こうしてってイメージです。
それは、単語の確率から生成するChatGPTのような文とは全く違います。
人と同じように世界を認識して、作り出される文です。
これが、正しいAIの心のつくり方です。
はい、今回の動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、意識の仮想世界仮説に関しては、よかったらこちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに!