第284回　数字の３はカレー味？　共感覚とクオリアを生み出すAI

ロボマインド・プロジェクト、第284弾！
こんにちは、ロボマインドの田方です。

共感覚って聞いたことありますか？
共感覚って、音を聞いたら色を感じたり、文字や数字に色が見えたり、感覚が別の感覚に結びつくことです。

自分は関係ないと思うかもしれないですけど、最近の研究だと、23人に一人は、何らかの共感覚を持ってるって研究もあります。
共感覚って意外と自分では気づきにくくて、「あの字、赤が濃すぎるわね」とかっていったら、「何言ってるの？」って言われて、初めて、「あっ、他の人は、文字に色を感じないんだ」って気付くようです。

共感覚って、じつは、クオリアと深い関係があります。
クオリアって、主観が感じるものです。
たとえば赤って色は、物理世界だと波長700nmの電磁波です。
でも、意識は赤って感じで認識します。
赤の赤らしい感じがクオリアです。
ただ、主観で感じる赤は、他の人も同じように感じてるとは証明できないと言われています。

こんな風にクオリアは説明されます。
でも、こんな説明じゃ、よく分からないですよね。
科学者や哲学者の中にも、クオリアなんか存在しないって断言する人もいます。

でも、共感覚で説明すると、はっきりします。
「赤色は、ドの音だよね」とか、「数字の３は、カレー味がするよね」っていう人がいるってことは、みんな、同じ色や数字をみて、同じように感じてるわけじゃないってことです。
このことからもクオリアは、存在するって言えるんですよ。
これが今回のテーマです。
共感覚とクオリア。
最後には、AIでクオリアを生み出す方法まで解説しますので、ぜひ、最後までお聞きください。
それでは、始めましょう？

共感覚って、芸術家に多いとも言われます。
たとえば、カンディンスキーは音が色に見えたといわれています。
有名な、コンポジションシリーズ

は、曲を聞いて描いたそうです。
曲のイメージを絵にしたんじゃなくて、カンディンスキーが音楽を聴くと、本当にこんな光景が見えたんでしょう。

そう言えば、ギタリストの友達も共感覚があるって言ってたので聞いてみました。
第79回でインタビューしてくれた同級生です。
彼は、12ヶ月を三次元で認識してるって言ってました。
最初、いってる意味がわからなかったです。
だって、共感覚って、色とか形が一緒になることですよね。
12ヶ月とかって時間やし、3次元って空間やし、どういうことかよくわからなかったです。
それで、もう少し詳しく聞いたら、図を送ってきてくれました。

まず、12ヶ月はこんな感じに時計みたいに配置されてるそうです。
なぜか等間隔じゃないけど、位置は固定されてて、変わることはないそうです。
それで、今7月として、12月のことを考えるとき、こんな風に見えるそうです。

自分が7の少し上のとこにいて、１２を眺めてる感じだそうです。
こんなのをイメージしながら、年末まで、まだ、結構あるなぁって思うそうです。
誰かが、「年末まで、まだだいぶあるなぁ」って言ってるのを聞いて、みんな、おんなじものをイメージしてると思ってたそうです。

さて、時間とか空間って、色とか味とかと違って、五感で直接感じるものじゃないですよね。
ここから分かるのは、共感覚って、五感の変換ミスってことじゃないってことです。
空間って、目で見たり、手で触ったりして頭の中につくり上げられたものです。
五感からの入力を元に二次的に作り上げられた抽象的な概念です。

時間はどういうものかと言うと、過去を認識したとき、今と過去の間にある抽象的な概念といえますよね。
こんな抽象的な概念でも、共感覚が起こり得るってことです。
どうも、あらゆるものが共感覚になり得るようなんです。

じゃぁ、逆に、共感覚が起こらないってことってあるんでしょうか？
これについて考えてみます。
まず、色や音、時間を感じてるのは、何でしょう？
それは、自分ですよね。
主観とか意識です。
意識が、赤いとか、音が聞こえるって感じてるわけですよね。

それから、意識が感じる色とか音は、クオリアです。
クオリアと意識を使って世界を認識する仕組み。
これが、共感覚が起こる最低条件のようです。

つまり、クオリアや意識を持たない生物は共感覚が起こらないんです。
たとえば、カエルとか魚は、感覚器からの入力に直接反応して動いてるだけで、クオリアや意識を使って世界を認識していません。
こう言った生物は、おそらく、共感覚は起こらないと思います。

人間でも、膝の下を叩いて脚が上がる脊髄反射ってありますよね。
脊髄反射は、無意識で行なっていて、意識が行ってないので、共感覚は起こり得ないです。
逆に言えば、共感覚が起こるってことは、人は、クオリアと意識を使って世界を認識してるってことの証明になるとも言えます。

今度は、どうやって共感覚が起こるか考えて行きましょう。
共感覚って、赤ちゃんのころは誰でも持っていたそうです。

脳の中には何百億もの神経細胞があって、互いにシナプスでつながって、複雑に絡み合っています。

人の場合、シナプスの形成は、生後8か月くらいがピークで、その後、10歳ぐらいまででシナプスは半減するそうです。
これは、生まれて10歳ぐらいまでの環境で、必要なシナプスが強化されて、必要ないシナプスが除去されるからです。
これをシナプスの狩り込みといいます。

つまり、10歳ぐらいになって、ようやく、世界を正しく認識できるようになるといってもいいです。
逆に言えば、それまでは、繋がってはいけないシナプスが繋がってたといえます。
つまり、目で見て音を感じるとかって共感覚は、シナプスが過剰につながってるから起こったとも言えます。
それが、たとえば、見た時、音を感じてないって経験を重ねることで、その間のシナプスが刈り取られて、共感覚が無くなってきたんでしょう。

感じるってのは、意識に上るってことです。
ということは、意識の上ると、シナプスの狩り込みが行われないわけです。
「今7月だから、12月はまだ、だいぶ先だなぁって」言ったとき、毎回、こんなイメージを思い浮かべてたら、シナプスの狩り込みが行われないので、いつまでも共感覚が起こるんでしょう。

そういえば、僕も、子供の頃、共感覚があった記憶はあるんですよ。
何の共感覚かは覚えてないんですけど、何かを見た時、丸っこい感じとか、尖った感じとかって感覚を感じてたのは覚えてるんですよ。
丸っこいクオリアと、尖ったクオリアが、全然ちがうものに結びついていたんでしょう。

さて、僕らがやろうとしてるのは、人間の心をコンピュータで作ることです。
今までの話で、クオリアがどんなものか、だいぶ分かってきました。
次は、このクオリアをコンピュータでどうやって獲得するかについて、考えてみます。
その前提となるのは意識の仮想世界仮説です。

人は、目で見た世界を頭の中で仮想世界として構築します。
意識は、この仮想世界を介して現実世界を認識します。
これが、意識の仮想世界仮説です。

仮想世界は、コンピュータなら、たとえば3DCGで再現します。

リンゴを見たとしたら、３DCGの三次元空間にリンゴオブジェクトを配置するわけです。
意識プログラムは、このオブジェクトを認識します。
つまり、オブジェクトがクオリアというわけです。

僕らは、このオブジェクトを手作業で作っています。
これが、自動でできたら、より人間の心に近づけますよね。
だって、赤ちゃんは、自動でやってるわけですから。

ここで、使えそうなのがディープラーニングです。
たとえば、顔認識で考えてみます。

ディープラーニングは、大量の写真から、最初は丸や傾きのある直線とか、単純な図形を抽出します。
次に、単純な図形を組み合わせて複雑な図形を抽出します。
たとえば、顔画像なら、目や鼻といった形が抽出されてきます。
さらに、これらを組み合わせることで、最終的に顔画像が抽出されます。

この目や鼻、それから顔って意識が認識するものですよね。
つまり、これは、クオリアを抽出したといってもいいんです。

ディープラーニングの最大の特徴は、これらを人が教えることなく、自動で学習してることです。
いわゆる教師なし学習ってやつです。

これを、もう少し詳しく見て行きます。
最初の単純な画像は、入力画像の画素と対応してるわけです。
最初、全ての画素と画像が繋がっていて、それらのつながりのうち、つながりの強いものを残して、つながりの弱いものを削除するわけです。
いってみれば、シナプスの狩り込みです。

どうやってつながりが強いか、弱いか判断するかっていうと、たとえば入力画像の一部を隠します。
隠れた部分を再現できるつながりが強いつながりで、再現できないつながりが弱いつながりといえます。

これって、人が経験によって学習するのと同じといえそうです。
リンゴを見て、これはリンゴって教わったり、これは梨よって言われたりする経験を通して、リンゴと梨の区別がつくって感じです。
青くて、シャリシャリするのが梨だとかって学習するわけです。

じゃあ、ディープラーニングと人間の違いって、いったい、何なんでしょう？
それは、ディープラーニングの画像認識の場合、学習する空間が二次元空間と決まってるってことです。
でも、現実世界は三次元ですよね。
それに、感覚は視覚だけじゃありません。
味覚とか、触覚、臭覚があるわけです。
だから、見た目はよく似てても、味や、歯ごたえとか、ジューシーさとか、そういった感覚で、リンゴと梨の違いを感じるわけです。

意識が感じるのは五感だけじゃないです。
空間とか時間も感じます。
リンゴは、空間の中に配置されるオブジェクトです。
オブジェクトは、プロパティとメソッドを持ってます。
プロパティは、色とか味とかって属性です。
メソッドは、落ちるとかって動きです。
リンゴオブジェクトは、物体ですから、まず、三次元空間に配置されます。
そして、色プロパティが赤い、味プロパティが甘いとかって持ちます。
リンゴオブジェクトは物体でもあるので、落ちるメソッドも持ってます。

人は、リンゴを食べたり、「これがリンゴよ」って教えてもらったりって経験を重ねることで、頭の中にリンゴオブジェクトを作り上げるわけです。
このオブジェクトを作り上げてるのは無意識です。

オブジェクトを作り上げる要素は、今出て来ただけでも、空間、時間、物体、色、味とかって、いっぱいありますよね。
でも、こんなのほんの一部です。
おそらく、こんな要素が何百とかありそうです。
つまり、オブジェクトを正確に作るには、何百って要素を経験しないと作れません。
でも、それって、効率が悪すぎますよね。
でも、僕らは、数回とか、下手したらたった1回の経験でオブジェクトを生成できます。
そう考えたら、人間って、スゴイですよね。
だって、さっきのディープラーニングは、何億枚って画像を学習してるんですよ。
しかも、2次元って決め打ちです。
じゃぁ、人間って、いったい、どうやって、こんなに効率よく学習してるんでしょう？

おそらく、予測してるんだと思います。
リンゴを知ってたら、それによく似た梨は、リンゴと同じだと。
たとえば、三次元空間にある物体だと予測すれば、これだけで、形があるとか重さがあるとかって分かりますよね。
そして、味や香りも同じと予測します。
でも、食べてみたらちょっと違います。
そこで、リンゴとは違うぞと、学習するわけです。
いってみれば、シナプスの狩り込みです。
そして、これは「梨」と教えてもらって、梨っていう新しいオブジェクトを学習するわけです。
これらの作業をやってるのは無意識です。
そうやって無意識が作ったオブジェクトを意識が認識するわけです。

ここまで分かれば、ディープラーニングでクオリアを作ることもできそうです。
今までの違いは、最終的に学習するものをオブジェクトとすることです。
オブジェクトは、三次元空間に配置される物体だったり、時間って概念を含むかもしれません。
さらに、オブジェクトを構成するものとして、色や味、香り、動きなど様々な要素があります。
そして、新しいオブジェクトは、既に知ってるオブジェクトを使って予測します。
予測と実際の経験の違いから、新しく作ったオブジェクトを修正していきます。
こうやって、経験によってオブジェクトを自動生成することができますよね。
これって、まさに、赤ちゃんが世界を認識する過程と同じです。
これが、ディープラーニングでクオリアを生成する方法です。

もし、ディープラーニングに詳しい知り合いがいたら、ぜひ、この動画を見てもらってください。
上手くやれば、世界で初めて、クオリアを自動生成するシステムを作れるかもしれません。
それで、もしそのシステムで共感覚が生まれたら、それは、もう、人間と同じ心といえます。
それから、今回の動画で紹介した意識の仮想世界仮説に関しては、この本で詳しく解説してるので、良かったら読んでください。

今回の動画が面白かったらチャンネル登録、高評価お願いしますね。
それじゃぁ、次回も、おっ楽しみに！