第516回なぜ、世界が見えると思うのか？

ロボマインド・プロジェクト、第516弾！
こんにちは、ロボマインドの田方です。

前回から、ラマチャンドラン博士の『脳の中の天使』を読んでいます。

今回は、脳の中の視覚処理です。

人間に限らず、他の動物も目も脳も持っていますよね。
生物は進化していて脳も進化しています。
だから、人が最も進化した視覚処理をしています。
でも、たとえば鷹は何キロも先の獲物を見つけることができます。
鷹の方が優れた視覚をもっているはずです。

でも、視覚処理が進化したっていうのは、視力がよくなったってことじゃないんですよ。
よく見えるようになったってことじゃなくて、見ることの中身が進化したんです。

視覚は脳内の複数の領野で処理されます。
たとえば、線の傾きを識別する領野とか、色を識別する領野とか、動きを識別する領野とかです。
これが、たとえば一般的な哺乳類だと10ぐらいしかないんですけど、人間の場合、30以上もあるんです。
これが、人間の視覚処理が最も進化してるってことです。

視覚処理の中身が違うっていうことは、同じ世界を見ても違う世界を認識してるってことです。
たとえば、視覚野の一つに動きを処理するMT野があります。
MT野が損傷した女性がいます。
彼女が言うには、全てがカクカクした動きに感じられるそうです。
走ってる自動車は、パッ、パッ、パッって近づいてるように見えますし、コップに水を注ぐ時も、水面が、パッ、パッ、パッって上がってくるように見えます。

そんなの不自然だって思うかもしれないですけど、でも、目が直接知覚してるのは、パッ、パッ、パッ画像です。
それを、MT野がパッパッパッの間を埋める補間処理を行っているから、なめらかに動いてるように感じるわけです。
もし、生まれた時からパッパッパッの世界で生きていたら、世界とは、そういうものだと思うだけでしょう。
何が言いたいかというと、同じ世界を見てたとしても、脳内の視覚処理が違うと、全然違う世界を感じているんです。
同じ世界を見てるかどうかは、同じ視覚領野を持ってるかどうかってことなんですよ。
これが今回のテーマです。
なぜ、世界が見えると思うのか？
それでは始めましょう！

僕は、コンピュータに文章の意味理解をさせようとしてこの研究を始めました。
ところが、言葉の意味とは何かって、いまだにわかってないんですよ。
言語学や認知科学で研究はされてますけど、コンピュータで再現できるぐらいきちんと定義できてるものはありません。
それじゃぁ自分で考えるかって考え始めて、その時になって、ようやく、言葉の意味の定義がなんで難しいかわかりました。

それは、言葉の意味だけ取り出して考えるってことができないからです。
意味というのは、大げさに言えば、生きている中で定義されるものなんですよ。
たとえば「食べる」の意味を定義しようとしたら、「噛む」とか、「消化する」とか、「食べ物」とか、「食べられないもの」とか、そういったものが全て関係してくるじゃないですか。
つまり、言葉の意味っていうのは、「生きる」という全体の中で定義しないといけないんですよ。
この全体を見るっていうのが難しいんです。
というのも、科学っていうのは、分子とか原子とかって、要素に分解して解明しますよね。
でもそのやり方だと全体を見失ってしまうんですよ。

今回、解明しようとしてるのは「見る」です。
これも、目が見たものをどうやって分解してるかって観点だけ見てたら全体を見失うんですよ。
たとえば、運動前野のF5野にカノニカルニューロンというのがあります。

これは、「手でつかめるもの」を見た時発火するニューロンです。
つまり、環境に対する行動に関するニューロンです。
環境に対する行動といえば、心理学者ジェームズ・J・ギブソンによってアフォーダンスという概念が提唱されています。

アフォーダンスというのは、たとえば、ドアのとってと、押すか引くかの行動の関係で説明されます。

左のドアは板が貼ってあるだけなので、押して開けるってわかりますよね。
右は、手で持つ取っ手になってるので、手前に引くってわかります。
これがアフォーダンスです。
昔、カラオケに行ったとき、トイレのドアの取っ手がこうなってました。

引くものだと思って手前に引いても開きません。
押すのかと思って押しても開きません。
このドア、横にスライドするドアだったんですよ。
これ、みんな間違うみたいで、ドアががたがたになってました。
アフォーダンスを間違って設計するとこうなるってことです。

生物にとって知覚とは、環境の中の行為と一体になってるわけです。
それまで知覚というのは、「見る」とか「聞く」といった風に感覚器ごとに分けて考えていました。
それに対してアフォーダンスは、知覚は行為と一体になっていると考えるわけです。
しかも、それが、１９９０年第に、脳の中のニューロンとして発見されたんです。
それを、カノニカルニューロンといいます。
つまり、「見る」と「行動」が一体となったニューロンが発見されたんです。

これは何を意味するかというと、「見る」だけ取り出すことはできないってことです。
つまり、環境や行動といった全体を考えないと意味がないということです。
この環境への行動というのが、一言で言えば、「生きる」ということです。
ここから定義していかないといけないんです。

それじゃぁ、この「生きる」をもう少し詳しく定義します。
まず、世界がありますよね。
世界の中に体があります。
世界を認識するのが「見る」とか「聞く」といった知覚です。
知覚した世界に働きかけるのが行動です。
これが「生きる」の全体像です。

そして、人間の場合、世界を認識するのは意識です。
逆に言えば、意識が認識する世界は、意識が認識できる要素で作られています。
たとえば色です。

現実の物理世界に存在するのは電磁波です。
その内、人は、可視光を色とし認識するわけですよね。
眼には赤緑青の３色の可視光を検出する錐体細胞があります。

言い換えると、色というものが現実世界にあるわけじゃないんですよ。
現実世界にあるのは電磁波です。
それを意識が認識できるように変換したのが色です。
つまり、色というのは脳の中にしかありません。
これを端的に示す例があります。

第497回で共感覚を取り上げました。
共感覚というのは、たとえば数字を見た時色を感じる現象です。
ラマチャンドラン博士が共感悪者を調査した中に、錐体細胞が欠けて緑が見れない人がいました。
ところが、その人は、数字の５が緑に見える共感覚者だったんです。
つまり、見ることができない色を、数字をみることで感じることができるんです。
このことからも、色というのは目の錐体細胞で作り出されてるんじゃなくて、脳内に始めからあることがわかりますよね。

色を分析するのはV4野です。
緑の錐体細胞は、緑色の可視光を検出すると、V4野の緑のニューロンを活性化させて、意識はそれを緑と感じます。
逆に言えば、錐体細胞でなくてもV4野の緑を活性化するものがあれば、意識は緑を感じます。
だから、数字の5に緑を感じる共感覚者は、5を見るたびに緑を感じるわけです。
それが、たとえ見たことがない色であってもです。

さて、「生きる」とは、世界に対する行動でしたよね。
行動を決定するのは意識です。
だから、意識は、まず、世界を認識しないといけません。
逆に言えば、意識が行動を決定できるように、知覚から世界を作り上げます。
でも、知覚から世界をうまく作れなかったらどうなるでしょう。

これは、ネッカーキューブといわれる立方体です。

この立方体、二種類の見方ができます。

不思議なのは、どちらか一方の見方だけを見続けることができないんですよ。
一方の見方で立方体を見てても、しばらくすると、もう一方の見方に変わってしまうんですよ。
紙に描かれた立方体は二次元です。
それが三次元に感じられるのは、無意識が二次元から三次元を作り出してるからです。
この時、二つの立方体のどちらか決めかねるとき、無意識がとる戦略は、交互に出すってことです。
意識は、それを受け入れるかありません。
ここからも、意識が見てるのは現実世界そのものじゃなくて、無意識が作りだした世界だってことがわかりますよね。
無意識が作り出す世界の元になってるのは知覚です。
ということは、意識が感じる世界を観察することで、無意識はどんなふうに世界を認識してるのかがわかるんです。
面白くなってくるのはここからです。

これを見てください。

これは、ランダムな円の中に、左から右に白から黒に色の勾配を付けた絵です。
この絵をみてると、丸が窪んで見えたり、卵みたいに飛び出して見えたりします。
さっきのネッカーキューブと同じで、へっこんでるか飛び出してるか、どちらとも解釈できるからです。

ただ、へこんで見えた場合、どの円もへこんでみますし、出っ張って見えた場合も、どの円も出っ張って見えます。
この円はへこんで見えて、この円は出っ張って見えてってバラバラになることはありません。
なぜかというと、光が左からあたってると解釈した場合は出っ張ってるとみえて、右からあたってる場合はへっこんで見えるからです。
つまり、光源は一つというのが前提となってるわけです。
でも、もしかしたら、丸の一つ一つに別の方向から光が当たってるかもしれないじゃないですか。
でも、でこぼこがバラバラに見えないということは、無意識は光源は一つだと解釈してるわけです。
なぜ、無意識がそう解釈してるかというと、太陽は一つだからです。
もし、複数の太陽がある星で進化したとしたら、この絵の円は、バラバラに出たり引っ込んだり見えるかもしれません。

たとえばこの絵で上がへこんで見えると、下は出っ張って見えますよね。

こう見えるのも、光源が一方からと想定してるからです。
こんな風にして、無意識がどんな世界を想定してるかがわかるわけです。

次はこれです。
でこぼこがランダムになってますよね。
たとえば、一番上の二つの円は出っ張って見えて、一番下の二つはへっこんで見えますよね。

じゃぁ、これを回転しますよ。
一番下のへっこんでる二つをみていてください。
（ゆっくりと180度回転する）

はい、回転しました。
さっき、へっこんで見えた二つの円が、今度は出っ張ってみえますよね。

これ、考えたら不思議です。
だって、下二つの円をへっこんで見えるように世界を作っていたのは無意識です。
同じへっこんだ円が移動しただけで、出っ張って見えるように世界を作り替えるのは不自然ですよね。
不自然なのに、あえてそうしてるってことは、別のことを優先してるからです。
それは光源の位置です。
無意識は、上からあたる光を固定してるから、回転すると出っ張ったり引っ込んだりするわけです。

じゃぁ、今度はこれを、左に90度回転してみます。（ゆっくり90度回転する）

これはどうでしょう。
たとえば一番上の円を見てください。
右から光が当たってるとみれば、出っ張って見えます。
左から光が当たってるとみればへっこんで見えます。
どちらにもみえますよね。
これを元にもどしますよ。（右にゆっくり90度回転させる）

さっき一番上にあった円が一番右に見えます。
今度は、へっこんでしか見えませんよね。
どうしても出っ張って見えません。
なぜそうなるかというと、無意識は、光源の位置を上に想定してるからです。
下から光が当たるってことは想定してないわけです。
なぜなら、経験上、太陽は上にあるからです。
生まれてこの方、足の下に太陽があることを経験したことがないからです。
だから、無意識は下の光源を作り出さないんです。
でも、太陽は横なら、東も西もどちらもあり得ます。
だから、左右の光源はどちらにも切り替わることができるんです。
こんな風に、無意識が作り出す世界って、生きている環境に依存しているといえます。

最後に極めつけの実験をします。
もう一度、さっきのこの図を見てください。

上が引っ込んで、下が出っ張ってるように見えるとします。
その場合、左に光源があるわけです。
そしたら、こんな風に、首を90度右に傾けて見てください。
へっこんでた上が出っ張って、出っ張ってた下がへっこんだでしょ。

これは、首を右に傾けたら、光源が右に固定されたんです。
どういうことかわかりますか？
これは、光源は必ず頭の上にあるって、無意識が想定してるってことです。
たとえ、首を傾けようともです。
首を傾けたら、上も傾くと、無意識は想定しているんです。
これが、無意識が行う情報処理です。

世界を作るのは無意識です。
その世界は、単純な統計で判定された世界です。
上とは頭の上にあることが圧倒的に多いから、無意識は頭のある方を上と判断します。
だから、首を右に９０度に傾けただけで、無意識にとって上は右になるんです。
でも、これって理屈からしておかしいですよね。
理屈を考えるのは意識です。
つまり、統計で考える無意識と、理屈で考える意識という二種類の情報処理があるわけです。

ここにきて、意味とは何かのとっかかりが見えてきました。
少なくとも、統計的に処理する方法と、理屈で考える方法の二種類があることがわかりました。

そして、今のAIは統計処理しかしていません。
たとえば、大規模言語モデルは大量の文章を学習して、ある単語の次に出現する単語の統計的に予測して文章を生成します。
ここから、今のAIがやってることは無意識の処理だと言えそうです。
理屈で考えていないということから、意味を理解していないとも言えます。

次回は、「見る」から、意味を理解するとかどういうことか、引き続き考察していこうと思います。

はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、よかったらこちらの本も読んでください。
それじゃぁ、次回も、おっ楽しみに！