第292回 なぜ、今まで気づかなかった? 言葉がどこにあるのか?


ロボマインド・プロジェクト、第292弾!
こんにちは、ロボマインドの田方です。

僕らが目指してるのは、ドラえもんみたいに普通に会話ができるAIです。
これは、コンピュータが生まれた当初からの人類の夢です。
でも、今まで、多くの天才達が挑んできて、未だに実現出来ていません。
たぶん、考えれる手法は全て、試してるはずです。
それでもできないのは、なぜでしょう?
何か、根本的なとこで勘違いしてるんじゃないでしょうか?
それが、何か、ようやく分かったんですよ。

それは、言葉がどこにあるかってことです。
みんな、書かれたり話された言葉自体を研究していました。
でも、言葉は、そこにはなかったんです。
これが今回のテーマです。
なぜ、今まで気づかなかった?
言葉がどこにあるのか?
それでは、始めましょう!

言葉を扱う研究は、言語学とか、AIだと自然言語処理があります。
言語学は、文法を調べたり、単語を意味で分類したりします。
自然言語処理も、言語学の知見をもとに、昔から単語をオントロジーとして分類したりしていました。

ただ、最近の自然言語処理では、大量の文書から、ある単語の次に来る単語の出現確率を学習するやり方が主流になってきています。
そして、このやり方で、文法的に正しい文章を生成できるようになったんです。
ただ、文法的には正しいんですけど、意味がとおる文章にはならないことが多いです。

文法に関しては、言語学では、チョムスキーの生成文法とか普遍文法っていうのがあります。
チョムスキーは、人間の脳には、言葉を話す普遍的な能力が備わっていると考えました。
それが、たまたま生まれたのが日本なら日本語になって、アメリカなら英語になったわけです。
ただ、普遍文法は、今はそれほど盛んに研究されていませんし、脳の中にも、そんな機能は、まだ見つかっていません。

これが、言葉にまつわる研究の大雑把な全体像です。
全てではないですが、少なくとも、これらの研究からは、普通に会話ができるAIは生まれてきていません。
さて、これらの研究が根本的に間違ってるとしたら、何か共通点があるはずです。
それは、何でしょう?
それは、言葉です。
研究対象を言葉にしてるってことです。

「なに、当たり前のこと言ってるの?」って思ってますよね。
言葉の研究やから、言葉を研究対象にするの、当たり前やんって。

そこなんですよ。
そうやって、あまりにも当たり前で、誰も疑わなかったとこが問題なんですよ。
言葉は、表面に現れた、ただの現象です。
解明すべきは、現象じゃなくて、その奥にある本質です。
じゃぁ、その奥ってどこでしょう?
それは、脳です。
言語を生み出した脳です。

その意味では、チョムスキーは正しかったと思います。
ただ、チョムスキーが間違ったのは、文法も、まだ、表面に現れた現象だったんです。

じゃぁ、言葉や文法のさらに奥にある言語の本質って何でしょう?
それは、頭の中にある「言いたいこと」です。
頭の中で感じるイメージです。
頭の中にあるイメージとか言いたいこと、これが言語の本質なんです。
そこを中心に解明すべきなんです。

「そこまでは分かった」と。
「じゃぁ、その本質とやらは、脳のどこにあるんや」ってなりますよね。
こっから、今まで、誰も言及したことのない具体的な話になります。

脳科学の発展で、特定の人に反応する脳細胞が側頭葉に見つかっています。
たとえば、ある人の脳を調べたら、トム・クルーズに反応する脳細胞が実際に見つかりました。
トム・クルーズ細胞は、トム・クルーズの特定の写真にだけに反応するだけじゃないですよ。
正面の写真だけでなくて、横顔のトム・クルーズにも反応します。
ミッションインポッシブルのトム・クルーズにも、トップガンのトム・クルーズにも反応します。
さらに、「トム・クルーズ」って文字の並びを見た時にも反応します。
つまり、この脳細胞は、トム・クルーズの概念そのものと言ってもいいわけです。
脳の中に、トム・クルーズの概念が見つかったんです。

これ、僕らが感じてるトム・クルーズと、ほぼ一緒じゃないですか。
だから、この脳細胞と同じように、言葉を定義するのが正しいやり方なんですよ。
つまり、昔から行われてた単語をオントロジーで定義するのは強ち間違いじゃないんですよ。

さて、それじゃぁ、どんなシステムができれば、トム・クルーズを理解したことになるでしょう。
今の話で言えば、そのシステムは、どんな角度のトム・クルーズを見ても、トム・クルーズと判断できますよね。
それを実現するには、トム・クルーズの3Dモデルを用意する必要があります。
そうすれば、写真や映画を見て、「あっ、トム・クルーズだ」って分かりますよね。
それから、トム・クルーズに関して、印象的な映画のシーンのデータなんかも関連付けておきます。
つまり、単語の意味は、関連するデータと結びつけて定義するわけです。
そうやって、トム・クルーズに関連するデータをまとめた中心となるデータが、トム・クルーズの概念となるわけです。
または、固有名詞「トム・クルーズ」です。
そんな風にデータをまとめれば、「トム・クルーズといえば、やっぱり、トップガンだよね」とかって言えます。
これが、表面に現れた言葉です。
今までは、この表面に現れた言葉しか研究対象にしてなかったわけです。

さて、名詞はこうやって関連付けて定義できそうです。
それじゃぁ、動詞はどうやって定義すればいいんでしょう。
これも、たとえば身体に関する動詞は、脳の中に見つけることができます。

前頭葉と頭頂葉の間には、中心溝といわれる溝があります。

この中心溝の前を一次運動野、後ろを体性感覚野といいます。
ここには、体がマッピングされています。
たとえば、一時運動野の指に対応する部分を刺激すると、指がピクンと動きます。
体性感覚野の指に対応する部分を刺激すると、その指を触られた感覚を感じます。
言ってみれば、ここに、意識が感じる身体、つまり、ボディイメージがあるわけです。

一時運動野のさらに前には、補足運動野があります。
補足運動野は、一時運動野より、より複雑な動きに対応しています。
たとえば、手すりをつかむとか、バイバイって手を振る動きは補足運動野で管理しています。
つまり、補足運動野の「つかむ」って動きは、一時運動野の指を制御してるわけです。
詳しく説明すると、一時運動野には、指一本ごとの動きを担当する部位があります。
補足運動野は、その部位を個別に制御して、「つかむ」といった複雑な運動制御を行うわけです。
さて、何が言いたいか分かってきましたか?

動詞の「つかむ」は、補足運動野にあるってことです。
動詞は、脳のここに見つかったってことです。

そして、「つかむ」は、五本の指を制御してますよね。
つまり、「つかむ」は、複数の単純な動きに分解されるわけです。
これは、どういうことかと言うと、一つの動詞は、単純な動詞で構成されるってことです。

それじゃぁ、その単純な動詞はどこまで分解されるんでしょう?
指って三つの関節と、それぞれに筋肉が付いてますよね。
筋肉は複数の筋線維からなりますよね。
分解しようと思ったらキリがないです。

でも、最小単位は決まってるんです。
指って、関節が三つあっても個別に動かせませんよね。
曲げるか延ばすしかできません。
それを決めるのが一次運動野です。
つまり、体の動きの最小単位は、一次運動野で決められるんです。
複雑な動きの動詞は、最小単位の動きを組み合わせて定義するんです。

これなら、コンピュータで実現できそうですよね。
たとえば人体の3Dモデルを使って動きを定義できます。

3Dの人体モデルにはボーンといって骨格が入っていて、ゲームなどでは、これらのボーンを使って体を動かします。
こうやって、「つかむ」とか、「手を振る」とか、いろんな体の動きを定義できます。

では、これらの言葉を認識するのは何でしょう。
それは、自分ですよね。
意識とか主体というものです。

意識が、「トム・クルーズ」って名詞や、「つかむ」って動詞を認識するわけです。
ここで、言葉のもう一つの重要な要素が出てきましたよね。
それは、意識です。

単語や文の意味を理解するのが意識です。
意識は、それ以外に、嬉しいや悲しいって感情や、痛いとかお腹が空いたって感覚を感じたり、考えたり計算したりします。
意識が感じたことを表現したのが言葉です。
まさに、意識と言葉って、切っても切れない関係です。
言語システムの中心に位置するのが意識です。
そんなに重要な意識、言語学や、自然言語処理でどう扱われてたでしょう?
じつは、意識って、ほとんど、考えられたことないんですよ。
これ、おかしいでしょ。
まぁ、でも、これ、分からないでもないです。

たとえば、目の前にリンゴがあったとします。
それを見て、「リンゴは甘い」とか、「リンゴをつかむ」とかって考えたとします。
ここまでは、今までの脳の構造を使えば、コンピュータで実現できそうです。
じゃぁ、「おばあちゃんがリンゴが好きだから、おばあちゃんに、このリンゴを送ろう」はどうでしょう?
いきなり、難しくなりましたよねぇ。
こんなの、脳の中でどうやって考えるんでしょう?
ここが限界なんですよ。
今まで説明した脳の構造じゃ、複雑な文は作れないんですよ。
できるのは、せいぜい、「リンゴをつかむ」ぐらいの単純な文です。
これぐらいなら、チンパンジーでも理解できます。
逆に言えば、ここが、チンパンジーと人間の違いなんです。

ヒトとチンパンジーの脳を見て見ましょう。

赤い部分の大きさが全然ちがいますよね。
ここは、前頭葉の前の部分、前頭前野です。
そして、意識は、この前頭前野にあると言われています。

じゃぁ、前頭前野で何が行われているんでしょう。
僕は、ここに意識が認識する世界があると考えています。
ここで、僕の提唱する「意識の仮想世界仮説」について説明します。

人は、目で見た世界を頭の中で仮想世界として構築します。
意識は、この仮想世界を介して現実世界を認識します。

つまり、意識は仮想世界を介して世界を認識するわけです。
そして、仮想世界は、今、目の前の現実だけじゃなくて、過去の出来事を思い出したり、お起こってない出来事を想像したりするときにも使われます。
リンゴを見た時、「おばあちゃんがリンゴが好きだから、おばあちゃんに、このリンゴを送ろう」って想像も、この仮想世界で行われます。
想像するってのは、仮想世界で再現するというか、シミュレーションすることです。

リンゴを見て、リンゴを好きなおばあちゃんを思い出したとします。
それは、リンゴにおばあちゃんが関連付けられてるからです。
さらに、おばあちゃんが、リンゴを食べたら喜ぶだろうなぁって想像します。
どうやったら、おばあちゃんがリンゴを食べれるかって考えて、「そうや、このリンゴを送ろう」って想像します。
この一連の流れ、これは、一種のストーリーとも言えますよね。

「リンゴ」とか「おばあちゃん」って名詞、それから「食べる」って動詞、これらは脳の中に保存されてます。
今、必要なのは、それを組み合わせて、ストーリーとして再現することです。
そのストーリーが展開されるのが仮想世界です。
そして、そのストーリーを文字で表現したのが文です。

ここまで分かれば、文とは何か、わかりましたよね。
それは、仮想世界を使ったシミュレーションシステムで実行されるストーリーです。

でも、今の脳科学では、前頭前野に仮想世界は見つかっていません。
なぜでしょう?
それは、シミュレーションシステムはソフトウェアだからです。
脳をコンピュータにたとえると、脳はハードウェアとしてのCPUです。
シミュレーションシステムは、CPUの上で実行されるソフトウェアです。
仮想世界は、シミュレーションシステムのプログラムの一部です。
CPUをいくら観察しても、プログラムの中身は見えてきません。
だから、前頭前野をいくら探しても、仮想世界は見つからないんです。
ここが脳科学の限界なんです。

それじゃぁ、ドラえもんみたいに普通に会話するAIは作れないんでしょうか?
そうでもないんですよ。
脳の中に仮想世界が見つからなくても、それが、どんな動きをするかは、おおよその検討は付きます。
プログラムの動きがわかれば、同じ動きをするプログラムを作ることはできます。
これを、リバースエンジニアリングといいます。

つまり、仮想世界と同じ動きをするプログラムをリバースエンジニアリングすればいいんですよ。
そして、それをやってるのが、僕らが開発してるマインド・エンジンってわけです。

仮想世界の詳しい仕組みに関しては、この本で詳しく解説してますので、良かったら読んでください。
今回の動画が面白かったらチャンネル登録、高評価お願いしますね。
それじゃぁ、次回も、おっ楽しみに!