第585回　見るとは、脳内に世界を作ること

ロボマインド・プロジェクト、第585弾！
こんにちは、ロボマインドの田方です。

グーグルのAI、LaMDAに意識が宿ったと事件になったのは、たしか2022年です。
そのあと、ChatGPTが発表されて、毎週のようにバージョンアップして、いまではAIと普通に会話しています。
最近は、AIに意識があるのか、意味を理解しているのかって話題にすらなりません。

でも、ここらでこの問題について改めて考えてみたいと思います。
そもそも、AIは、現実世界を経験していません。
三次元空間とか、時間の流れとか、そういったものを経験していません。
AIが経験しているのは大量のテキストデータです。
それじゃぁ、この世界を経験せずに、世界の意味を理解してるとは言えないですよね。
これは、結構奥深い問題です。
なぜかというと、「じゃぁ、人間はどうやってやってるの？」ってなりますから。
または、「世界を見て、世界があると思うってどういうこと？」です。
さて、前回から読んでいるのが、この『あなたの知らない脳』です。

著者のデイヴィッド・イーグルマンはスタンフォード大学の神経科学者で、視覚に関する様々な研究を行っています。
その中に、たとえば「背中で見る」という研究があります。
それは、人の額にビデオカメラを取り付けて、入ってくる映像情報を背中に取り付けたたくさんの振動器に変換します。

最初は、背中に振動のパターンを感じるだけです。
目隠しをして部屋を歩き回っても、すぐにぶつかります。
ところが、一週間もすると、ぶつからずに歩けるようになるそうです。
そのころになると、背中に振動を意識しなくなります。
どう感じるかと聞くと、部屋が見えるって言うんです。
背中で感じるんじゃなくて、白黒の部屋に自分がいると感じがするそうです。

たしかに、僕らも目の前の部屋を見たとき、網膜に色の刺激を感じているなんて思わないですよね。
網膜のことは忘れて、ただ、部屋にいると思うだけです。
つまり、見るとう経験は目でなくても背中でも作り出せるんです。
これ、どういうことかわかりますか？

つまりね、「見る」の本質は、視覚情報じゃなくて、視覚情報から作り出された世界ってことです。
だから、目でなくても背中でも見れるんです。
これが今回のテーマです。
見るとは、脳内に世界を作ること
それでは、始めましょう！

イーグルマンは背中でなく、舌で見える装置も作りました。
そして、それを全盲のクライマー、エリック・ヴァイエンマイヤーにも使ってもらっているそうです。

エリックは１３歳の時に失明しました。
それでも登山家になる夢をあきらめずに、全盲で世界で初めてエベレスト登頂に成功しました。
エリックは、最初、舌の刺激を意味不明の輪郭や形として知覚していたそうです。
それが、しばらくすると、物体として認識できるようになったそうです。
今では、コーヒーカップを手に取ったり、娘とサッカーボールの蹴り合いができるようにまでなっているそうです。

これとは対照的なのは、生まれたときから目が見えない女性です。
その少女は、自分の部屋の家具のレイアウトを詳細に把握していました。
そこまで把握しているなら、普通の人より詳細に部屋の見取り図をかけるんじゃないかと思って聞いてみたそうです。
そしたら意外な答えが返ってきました。
三次元を、二次元に変換する意味が理解できないそうです。

その女性は、見るという経験をしたことがなくて、生まれたときから手触りで物体や空間を把握しています。
つまり、触ったものから、いきなり立体として認識するんです。
でも、目の網膜は二次元ですよね。
脳は二次元から三次元の立体を作り出します。
僕らは当たり前にしてますけど、「目で見る」というのは、網膜に映った二次元映像を、脳内で三次元に変換するということなんです。
おそらく、その女性が背中や舌で見る装置を使ったとしても、見えることはないでしょう。
なぜなら、舌や背中に映し出される映像は二次元だからです。

この話で思い出すのが、第274回で紹介したSB氏です。
SB氏は、生後まもなく全盲になって、52歳で角膜移植手術して見えるようになりました。
ちゃんと目が見えるようになるか心配していたのですが、たいていのものは見てわかるようになったそうです。
ただ、始めた見たものは見えないといいます。
SB氏はずっと旋盤をみたかったそうで、ロンドン科学博物館で初めて旋盤を見ました。
ところが、目の前にあるのに旋盤が見えないといいます。
そこで、ガラスケースを外してもらって、旋盤を手で触らせてもらったそうです。
そのあと、一歩下がってこういったそうです。
「触ったから、これで見えるぞ」って。

SB氏は、見て世界を理解するという機能がうまく育っていなかったんでしょう。
その代わり、手で触って世界を理解していました。
理解というより、頭の中に世界を作り上げるです。
このことからも、世界を見るとか、世界を理解するとは、頭の中に世界を作ることと同じだといえますよね。

SB氏の場合、今まで知っていたものは記憶の中に物体としてあったわけです。
だから、それが何か知っていれば、記憶から取り出して、頭の中の世界に作り上げることができたわけです。
これが「見る」という経験です。

ところが、知らないものは、記憶にないから、頭の中の世界を作り上げることができません。
これが、目の前にあるのに見えないという状況です。
でも、SB氏は触ることで、頭の中に物体として作り上げることができます。
これは、今までの人生でずっと行ってきたことです。
だから、「触ったから、これで見えるぞ」となるわけです。
見るとは、まさに世界を作ることに他ならないわけです。

つぎは、これを脳で考えてみます。

目の網膜からの視覚情報は視床を介して視覚野に送られます。
これは間違いではないんですけど、解剖学的にみると、視床から視覚野に向かう神経線維と、視覚やから視床に戻る神経線維の二種類あります。
そして、なんと、視覚野から視床に戻る方神経線維の方が１０倍も多いんです。
視床から視覚野に向かう流れが、目からの視覚情報で、この情報で脳内に世界が組み立てられます。
視覚野から視床に向かう流れはその逆で、脳内の世界から視覚情報をコントロールします。
脳内の世界というのは、直前に見た映像や、過去の記憶から組み立てられたもので、一種の予測でもあります。
こうだろうと予測した世界と、実際に目からの情報が一致していれば、わざわざ世界を更新する必要はないです。
予測と違ったら、その部分だけ更新すればいいわけです。
視覚野から視床に戻される情報というのは、予測した世界全体です。
視床から視覚野に向かうのは、予測と違う差分です。
だから、視覚野から視床に戻される情報の方が圧倒的に多いんです。

僕らが、今、見てる世界って、無意識が予測で脳内に作り上げた世界といえます。
それを僕らは現実世界というか、本物の世界と思っています。
目とかの五感からの知覚情報は、本物の世界の低次の材料ともいえます。

網膜に映る映像は２次元です。
本物の世界は三次元です。
生まれてすぐは、目からの二次元と、体が感じる三次元とがうまくかみ合いません。
でも、脳は感覚情報から矛盾ない世界を構築する機能が備わっています。
これによって、見たものと、手で触ったものから矛盾しない世界が脳内につくられるわけです。
こうやって、僕らが、今、感じてる世界が作られるんです。
これが、本物の世界です。

この本には、３歳のとき失明したマイク・メイの話が出てきます。
マイクは盲目のスキーヤーとして有名で、４６歳のとき新たに開発された手術で目が見えるようになって、このことは本にもなりました。

目が見えた最初、感じたのは、意味が分からない輪郭や色だったそうです。
それらがやがて、少しずつ世界に統合されたといいます。
ここでいう世界というのは、脳内の本物の世界のことです。

ここで、マイクは興味深いことを言います。
初めて廊下を見たとき、意味がわからなかったって言うんです。
どういうことかというと、廊下というものは平行な壁がずっと続くものです。
今まで、それを手で触って頭の中に廊下を作ってきました。
ところが、目で見たら違うんです。
遠くに行くほど、壁が近づいて見えるんです。
平行なのに近づくってどういうこと？
これが理解できなかったそうです。

僕らなら、当たり前ってわかりますよね。
遠近法です。
でも、この話を聞くと、網膜に映る二次元画像から、頭の中の３次元を作り出す仕組みがあって初めて遠近法が理解できるってことがわかります。

マイクは三歳まで目が見えていました。
3歳までに二次元から三次元に変換する機能を獲得したんでしょう。
だから、46歳で目が見えるようになったマイクも、やがて廊下をみても違和感を感じなくなりました。
二次元から三次元に変換する機能があるから、背中や舌で本物の世界を作り上げることができるんです。

今までの話は、二次元から三次元世界を予測する方法でした。
脳は、様々な方法で世界を予測します。
たとえば、バットに当たったボールは放物線を描いて飛んでいきますよね。
これは、ボールの軌跡を予測しているわけです。
ただ、これがわかるのはボールを横から見ているときです。
実際にフライをキャッチする野手はボールを真下から見るので、どんな放物線を描いているのかわかりません。
この場合予測できるのは、ボールがどっちの方向にどのくらいの速度で移動してるかだけです。
つまり、野手は、どこに落ちるかはわからないけど、どっちに走るべきかは分かります。
だから、最適な動きはできなくて、時に壁にぶつかったりします。
ここから分かるのは、脳は視覚情報から、何とかして頭の中の本物の世界を作ろうとすることです。

それは視覚だけじゃありません。
聴覚も同じです。
テレビドラマを見ていたら、俳優の口からセリフが聞こえるように感じます。
でも、実際の音声はテレビのスピーカーから出ています。
俳優の口から聞こえるように感じるのは、意識は、無意識が作り上げた脳内の本物の世界を見ているからです。
脳内に作られた世界では、俳優の口から声が出ています。

さて、意識が感じるのは、脳内の世界は、必ずしも現実と一致するわけではありません。
単純な錯覚で見てみます。
点滅と同時にピッという音がします。
この音がピッピッと二回鳴ると、二回点滅したように見えます。
https://www.youtube.com/watch?v=D3Z1cxA2Tp0
（0:07~0:19を適当に編集して）
もう一度見てみます。

実際は一回しか点滅していないのに２回点滅したように見えます。
これは、現実世界では音と動きはタイミングが同じと考えているからです。
だから、音が二回なると、二回点滅した世界を作り出したんです。
その世界を認識して、意識は二回点滅したと感じるわけです。

これを利用した面白い実験があります
ボタンを押したら光る装置を作ります。
ただし、光るのはボタンを押してから０．１秒だけ、わざと遅らせます。
すると、タイミングがずれるのはおかしいから、ボタンを押したタイミングで光るように無意識は脳内世界を調整します。
しばらく繰り返すと、違和感がなくなります。
違和感がなくなるとは、ボタンを押したタイミングと光るタイミングが一致するようになったってことです。

ここで、突然、0.1秒遅らせるのをやめます。
無意識は、そのことを知らないので、さっきと同じようにボタンを押したと感じるタイミングを0.1秒遅らせた世界を作ります。
そしたら、どうなると思います。

その世界を認識する意識は、先に光ってからボタンを押したと感じるんです。
つまり、自分の行動が、光に操られているように感じるんです。

本人は、自分の好きなタイミングでボタンを押しているつもりです。
でも、実際に感じるのは、光ったとき必ずボタンを押しているんです。

ボタンを押すふりをして押さなかったら光りません。
わざと何十秒も何もしなくて、忘れたふりをして、突然、ボタンを押そうとしたら、押す直前に光るんです。
これ、実際、どんな感じなのか、一度やってみたいですねぇ。
誰かこの装置、作ってくれないですかねぇ。

最後に錯視をお見せします。
さっき、視床から視覚野に向かうより、その10倍の情報が視覚野から視床に戻されるって言いましたよね。

これは、脳内に予測で作られた世界が先にあって、それに合うように視床からのデータをピックアップしてるからです。
逆に、脳内に、それに似あう世界がない場合、この機能がうまく働きません。
それじゃぁ、この絵を見てください。

たぶん、ただの模様にしか見えないと思います。
それは、脳内にこの絵に合う世界が作られていないからです。
その場合、視床から送られてきたすべてのデータを、視覚野にできるだけ正確に張り付けるしかありません。
だから、ただの模様にしか見えないんです。
それじゃぁ、ヒントを出します。
これは、キリストです。

それでもわからなければ、実際に目と鼻と口を書いてみます。

これならどうでしょう。
ただの模様だったのが、顔に見えてきましたよね。
それじゃぁ、元の絵を見せますよ。

こんどは、キリストに見えますよね。
これは、脳内世界にキリストが先に作られたからです。
後は、視床からの視覚情報を、脳内のキリストに当てはめるだけです。
こんな処理をしてるから、キリストに見えるんです。

ネットで検索すると、この絵、最初答えを聞いても、いまいち、ピンとこなかったけど、翌日見たら、キリストにしか見えなかったって意見がありました。
実は、僕もそうなんです。
昨日、原稿を書いた時には、そうかなぁって思ってたんですけど、今、見たらキリストにしか見えません。
たぶん、寝ている間に脳の配線が強化されたんでしょう。
皆さんも、ピンと来なかったら、明日、改めて見てみてください。

そろそろ、まとめに入りたいと思います。
冒頭で取り上げた疑問は、「世界を経験しないAIは、世界の意味を理解しているといえるのか？」でした。
さらに、じゃぁ、「世界を経験している人間は、世界の意味をどうやって理解しているのか？」です。

その答えはわかりましたよね。
それは、「頭の中に世界を構築する」です。
これが、世界を理解するということです。

「見る」という経験は、脳内に世界を構築することです。
そして、意識が認識するのが脳内の世界です。
脳内の世界が本物の世界です。
だから、たとえ目が見えなくても、背中や舌で世界を見ることができるんです。

大規模言語モデルは世界を構築しません。
次のデータを予測するだけです。
その意味で、今のAIは、まだ、世界を理解してないといえるんです。

はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、よかったらこちらの本も読んでください。
それじゃぁ、次回も、おっ楽しみに！