第252回 そもそも、言葉の意味を理解するって、どういう事?


ロボマインド・プロジェクト、第252弾!
こんにちは、ロボマインドの田方です。

最近のAIは、ディープラーニングのおかげで、自然な文章を生成できるようになりました。
有名なのは、GPT-3です。
GPT-3は、大量の文書から、自然な単語の並びを学習します。
最初に簡単な文を入力すると、そこに含まれる単語から、自然に連なる単語を出力して、自然な文章をいくらでも自動生成できます。

GPT-3が生成した文章は、スラスラ読めるんですけど、何を言いたいのか意味が分からないことがよくあります。
このことを指摘すると、AIの専門家は、それはまだデータが足りないからだって言います。
十分なデータがそろえば、いずれ、意味が通った文を生成できるって。
これ、本当ですかねぇ?

GPT-3が生成する文章を読んだとき、「これに似た文、どっかで見たことあるなぁ」って、ずっと気になってました。
それを、ようやく思い出しました。
それは、失語症です。

失語症には、ウェルニッケ失語症とブローカー失語症の二種類があります。
ブローカー失語症の場合、上手く言葉が出てきません。
一方、ウェルニッケ失語症の場合、流暢に話せて、一見、何の問題もないように見えます。
たとえば、Aさんの場合、こんな感じです。

「お体の具合はどうですか?どこか、悪いとこはないですか?」
「そうですねぇ。特に、どこも悪くないですねぇ」
「家族はいますか?」
「はい、いますよ」
「何人ですか?」
「えーと、三人です」
「お母さんはお元気ですか?」
「元気ですよ」
「お母さんはいくつになられましたか?」
「30、いや、33かなぁ」

特に、何も問題なさそうって思いますよね。
でも、この人は、じつは、右半身が麻痺してて、ベッドで寝たっきりなんですよ。
とても、「悪いとこはない」ってもんじゃないですよね。
家族も、本当は4人です。
お母さんは、とっくに亡くなっています。
Aさんは56歳ですから、お母さんが33歳のはずがありません。

これって、いったい、どういう事でしょう?
一見、会話としては成立してますよね。
ただ、言ってることがデタラメです。

こう聞かれたら、こう答えるって、会話のパターンは理解してるようです。
だから、一見、自然な会話ができるんです。
ただ、言葉の意味を理解していないんですよ。

これ、まさに、GPT-3と一緒ですよね。
GPT-3が学習してるのは、ある単語の次に、どんな単語が来るかって確率です。
単語が決まれば、次に来る単語を高精度に予測できます。

「お体の具合はどうですか?」って来たら、次は、「どこも悪くないですよ」って来る確率が一番高かったんでしょう。
「家族」、「何人」って来れば、「3人」って来る確率が一番高かったんでしょう。
Aさんの頭の中では、おそらく、そんな処理をしてるんです。

脳の中で、言語を司るのはウェルニッケ野とブローカー野の二つです。
ウェルニッケ野は言葉の意味、ブローカー野は、発話に関係しています。
Aさんの場合、ウェルニッケ野だけが損傷してるので、言葉の意味は理解できないですけど、問題なくしゃべることはできたわけです。

AさんとGPT-3が同じと考えたら、GPT-3は、意味を理解してないですよね。
自然な文章を生成できたからといって、意味を理解してるわけじゃないんですよ。
たぶん、今のAI研究者は、言葉の、そもそものところが、分ってないんですよ。
これが、今回のテーマです。
そもそも、言葉の意味を理解するって、どういう事?
それじゃぁ、始めましょう!

言葉の意味理解って、人によって、定義がバラバラなんですよ。
たとえば、AIの自然言語処理だと、試験問題の空欄穴埋め問題を解けたり、次に来る単語を予測できたらたら、意味を理解してると判断してます。
さっきも説明しましたけど、これができたからと言って、意味を理解してるとはいえないです。

AIで言葉の意味と言えば、昔から、意味ネットワークと言うのがあります。

これは、イヌは哺乳類の一種であるとか、哺乳類は頭と4本の脚を持ってるとかって関係を示したものです。
この意味ネットワークを使えば、「犬は足を何本持ってますか?」って質問に答えることができます。
たしかに、これも一種の意味ですよね。

これに対して、認知科学者のスティーブ・ハルナッドは、根本的な問題を指摘しました。
それは、シンボルグラウンディング問題です。
記号接地問題とも言います。

シンボルグラウンディング問題とは、記号システム内の記号が、どのようにして現実世界の意味に結び付けられるかという問題です。
ここでいう記号システムというのが意味ネットワークの事です。
記号は、単語のことです。
意味ネットワークは、現実世界には結びついてないですよね。
だから、意味ネットワークの単語を辿って答えを出したとしても、現実世界に辿り着きません。
つまり、現実世界に接地してないってことです。

じゃぁ、現実世界に接地してるって、どういうことでしょう?
たとえば、人がシマウマを理解する場合で考えてみます。
シマウマを知らない人がいるとします。
でも、その人はウマは知ってます。
それから、縞模様も知ってます。
その人に、「シマウマとは、縞模様のウマだ」って教えます。
さて、その人が、動物園に行って、初めてシマウマを見たとします。
そしたら、「あっ、縞模様のウマや!あれがシマウマか!」ってなりますよね。
これが、現実世界に接地して理解してるってことです。

それじゃぁ、これと同じことを、コンピュータで実現するには、どうしたらいいでしょう?
そこで、登場するのが意識の仮想世界仮説です。
人は、目で見た現実世界を頭の中で仮想世界として構築します。
意識は、この仮想世界を介して現実世界を認識します。
これが、意識の仮想世界仮説です。

これをコンピュータで実現するとします。
まず、現実世界をカメラで捉えます。
そして、それを3DCGに変換します。
意識が認識するのは、3Dオブジェクトとなります。
たとえば、これがウマの3Dオブジェクトです。

3Dオブジェクトは、表面に色や模様を貼り付けることができます。
それじゃぁ、この馬に、縞模様を貼り付けてみます。
はい、貼り付けました。

シマウマが完成しましたよね。
縞模様のウマと聞いて、コンピュータ内で合成したわけです。
ここまでできれば、動物園に行って、シマウマを見た時、「あっ、これがシマウマや!」ってなりますよね。
意識の仮想世界仮説を使って、見事、シンボルグラウンディング問題が解決したわけです。

この説明をすると、
「つまり、言葉の意味って、3DCGで定義するってことですよね」
って、言われるんですよ。

これ、間違いじゃないですけど、重要なのは、そこじゃないんですよ。
重要なのは、3DCGってことじゃなくて、関係性なんです。

いいですか。
説明しますよ。
僕らの意識は、現実世界を直接見てるんじゃないですよね。
見てるのは、仮想世界です。
仮想世界をコンピュータで実現するとすれば、3DCGです。
3DCGはプログラムです。
仮想世界を認識する意識もプログラムです。

つまり、仮想世界も、僕らの意識も、プログラムだってことです。
同じプログラムで出来てるんです。
勘違いして欲しくないのは、3DCGを意識が眺めてるってイメージです。
そうじゃないんですよ。
意識は、世界を外から見てるんじゃないんですよ。
そうじゃなくて、意識も、世界と同じレベルにあるんです。
同じプログラムとして、意識は、仮想世界に組み込まれてるんです。
言葉の意味も同じです。
世界も、意味も、意識も、同じプログラムの部品として、混然一体となって動いてるってイメージです。

前回、左脳が脳卒中になったジル・ボルト・テイラーの話をしました。
彼女は、脳の外科手術をして、8年かけて元の状態に回復しました。
手術直後は、生まれたばかりの赤ちゃんと同じだったって言います。
ただ、眩しい光を感じてただけだったそうです。

それが、やがて、光と影を区別できるようになりました。
少しずつ、物の形が分かるようになってきました。
でも、まだ、三次元空間というものを、よく理解できなかったそうです。

手前にある物は大きくみえて、奥にある物は小さく見えるとか。
それから、箱の後ろにぬいぐるみの顔が見えてたとします。
その時、箱の奥に、ぬいぐるみの体が隠れてるとかって、物の前後関係も分からなかったそうです。

そういう事から学び直さないと行けなかったそうです。
形とか、前後関係とか、目で見て、手で触ったりと、経験しながら理解していったそうです。
これが、仮想世界を作り上げてるってことです。

分かりますか?
仮想世界を意識が眺めてるんじゃないんですよ。
仮想世界と意識とは、同時に育って行くんですよ。
世界を見るってのは、世界を創るってことです。
奥行きを理解するってことは、仮想世界に奥行きを作るのと、意識が奥行きを認識するのと、同時に作られるんですよ。
世界と意識とは、一心同体なんです。

ジルは、ある日、ジグソーパズルをしてる時、お母さんから、「色に注目しなさい」と言われました。
ジルは、その時になって、初めて、色があるってことに気付いたそうです。
もちろん、それまでも、色というものは見えていました。
ただ、その意味が、その時になって初めて理解できたそうです。
何を言ってるのかよく分からないと思いますけど、こういう事だと思うんですよ。

色って、物体の表面に現れますよね。
色があるのは、物体の表面です。
だから、色を理解するためには、先に、三次元の物体が必要なんです。
物体があるから、その表面に色が現れるわけです。

たぶん、それまでのジルは、色と物体の表面とが結びついていなかったんだと思います。
ただ、その位置に、ふわっと色があるとしか感じてなかったんでしょう。
それが、お母さんに、「色に注目しなさい」って言われた瞬間、ただそこに見えるだけだった色が、物体の表面にピタっと張り付いたんでしょう。
あるべき場所に落ち着いたんです。
これが、分かるってことだと思うんですよ。
あるべき場所に落ち着くってのは、仮想世界の何かと何かが、正しい関係で結びついたってことです。
全てのデータが、仮想世界の中で、お互いに関係しあって結びついてるんです。
色っていうのは、物の表面に現れるものだって。
ジルが、色がわかったっていうのは、こういう事だと思うんですよ。

つまりね、世界を見るってのは、仮想世界をきっちり作るってことなんです。
色とか形とか模様とかって、これらは、三次元世界を構成する要素です。
世界を構成する要素が、正しい関係で結びついて仮想世界は創られるんです。
こうやって正しく仮想世界を組み立てれることを、意味を理解できたって言うんです。
ジルが、初めて、色を理解したっていうのは、こういう事だったんです。

だから、ウマって物体と、縞模様って関係を結びつけてシマウマって仮想世界を完成させて、初めて、シマウマが理解できたわけです。
こんな風に、

ウマって単語と、縞模様って単語を単に矢印で結びつけただけじゃ、意味を理解したってことにはならないんですよ。

重要なのは、仮想世界です。
仮想世界の中に、要素としての物体があるわけです。
要素同士が関係しあってるわけです。
そして、その要素に名前を付けて、言葉が生まれます。
単語は、仮想世界の要素し示す記号です。

今のAIが扱ってるのは、この単語だけです。
単語の次に、この単語が来る確率は何%とか。
肝心の世界を無視して、単語だけを扱ってるんですよ。
いくら、大量のテキストデータを学習したとしても、世界に結びついていなければ意味ないですよね。

じゃぁ、なんで、今のAIは単語しか扱わないんでしょう?
それは、コンピュータで扱いやすいからです。
テキストデータは、数えたり、データベースに登録できるからです。
理由は、それだけです。
それだけの理由で、肝心の世界を無視してるんですよ。
無視してるというか、そもそも、言葉の裏に世界があるってことが、見えてないんでしょうね。
でも、今回の話聞いたら、世界を無視して単語だけ数えるって、そんなのおかしいって分かるでしょ。
でも、これ、世界中のAI研究者がしてることですよ。
グーグルも、アップルも、みんなです。
もう、そろそろ、そっから抜け出しませんか。
計算しやすいとか、大量にあるからってことじゃなくて、何が本質かから考えましょう。
これが、今回、僕が一番言いたいことです。

今回紹介した、意識の仮想世界仮説は、この本に詳しく書いてますんで、良かったら読んでください。
今回の動画が面白かったら、チャンネル登録、高評価お願いしますね。
それじゃぁ、次回も、おっ楽しみに!