第547回 脳の本質


ロボマインド・プロジェクト、第547弾!
こんにちは、ロボマインドの田方です。

今回は、この本の紹介です。

『脳の本質 いかにして人は知性を獲得するか』
中公新書の新刊です。
著者は、認知神経科学者の乾敏郎(としお)先生です。
『脳の本質』ってタイトル、ベストセラーになった今井むつみ先生の『言語の本質』から取っていますよね。

まぁ、売れた本のタイトルとよく似たタイトルをつけるのは出版業界でよくあることです。
ついでに、もう一つ出版業界あるあるを紹介しておくと、中央公論新社ですけど、間に「新」って漢字がはいっていますよね。
出版社って、河出書房新社とか、誠文堂新光社とか、間に「新」が入る出版社がありますけど、共通するのは、どれも一度、倒産したことです。
出版業界では、倒産して、立て直すとき、社名に「新」って入れる慣わしがあるそうです。
まぁ、それも昔の話で、最近は必ずしもそうはなっていないようです。

まぁ、それはともかく、『言語の本質』も面白かったですけど、『脳の本質』もかなり面白いですよ。
『言語の本質』は第372回で紹介したので、よかったらそちらも見てください。

さて、この二冊、タイトルだけじゃなくて、中身も似たところがあります。
それは何かというと、今のAIブームに対する批判です。
『言語の本質』で今井先生が指摘したのはAIは言葉の意味を理解していないということです。

AIはニューラルネットワークで、これは、脳のニューロンをモデルにしています。
でも、今のAIは、人間が持つ高度な精神活動ほどの技術にはなっていないと『脳の本質』の乾先生は指摘します。

AIニュースを見てると、AIが人間と同等の知能をもつAGIは今年中にはできるとか、人の知能の1万倍の超知能が10年以内に生まれるとかって話をしょっちゅう聞きます。
でも、そんなことを言っているのはAI業界の人だけなんですよ。
認知科学や脳科学、心理学の人は、AIは人間の知能とは全く違うって言い続けています。
どちらの意見も聞きながら、バランスをもって今のAIブームを見る必要があります。
これが今回のテーマです。
脳の本質
それでは、始めましょう!

脳の研究はギリシャ時代からありましたけど、脳がどのように世界を認識するかって具体的な研究は1800年代後半のドイツの物理学者、ヘルマン・フォン・ヘルムホルツから始まります。

ヘルムホルツは、意識が見ている世界は、網膜に移った画像をもとに作り上げられた世界だといいました。
網膜に移るのは二次元画像ですよね。
それなのに目の前に三次元世界があると思うのは、脳内で三次元世界を仮想的に作っているからというわけです。

これって、僕が提唱する意識の仮想世界仮説そのものです。
人は、目で見た現実世界を頭の中で仮想世界として構築します。
意識は、この仮想世界を介して現実世界を認識します。
これが、意識の仮想世界仮説です。

わかりやすく言うと、脳内で仮想世界を作ってくれる無意識さんがいるわけです。
無意識さんの仕事は、意識さんに、三次元の現実世界があると思わせることです。
僕は、この仮説をもとに、今、コンピュータに意識を持たせようとしていますけど、同じことは、150年以上前から言われていたんです。

さらにヘルムホルツは、面白いことを言っています。
こうやって眼球を動かしても見えている光景自体は静止しています。
ところが、スマホを左右に動かしながら撮影すると、左右に流れる映像になるでしょ。
これ、考えたら不思議です。
たしかに、眼球をちょっと動かすだけで見えている光景が流れてたら、気分が悪くなって酔ってしまいますよね。
VR酔いの原因もここにあります。


これ、注意深く観察すると、目で見てるときって、見えている範囲全体があって、眼球の移動って、全体の中の注目する位置を動かしてるんですよ。
VRゴーグルはこれができないから酔うんです。

ヘルムホルツは、この謎を解くために、眼球を動かす筋肉が麻痺した患者を見つけ出して、その人に、眼球を動かすように言ったんです。
そうしたら、その人の眼球は動かなかったですけど、意外なことを言ったんですよ。
「動かそうと思った方向と逆の方向に景色が流れる」って。
これ、どいうことかわかりますか?

世界は止まっているでしょ。
それが、眼球を動かすたびに世界が動いてちゃ、それは、正しい世界じゃないですよね。
そんな世界を作ったら、無意識失格です。
そこで、無意識さんは、意識さんにそう思わせないように、眼球を動かすとき、見えている景色を逆方向に動かすんですよ。
ところが、眼筋が麻痺した患者は眼球が動かないから、結果として、動かすのとは逆方向に景色が流れるわけです。
いやぁ、脳ってよくできていますよね。

さて、20世紀になると、コンピュータが発明されました。
次に登場するのがノーバート・ウィーナーです。

ウィーナーは、第二次大戦中の航空機研究をきっかけに「サイバネティクス」という新たな科学領域を開拓しました。
サイバネティクスというのは、操縦する人と操縦される機械とを一つのシステムとしてとらえる全く新しい考え方です。
サイバネティクスの基本はフィードバック制御です。

システムは制御対象を目標値にコントロールします。
このとき、結果をセンサーで検知して、目標との差が縮まるように制御します。
これは、知覚情報に基づいて世界を認識して行動を決定する脳と同じと言えます。
ウィーナーは、脳も、「制御と通信」という観点からとらえるべきだと説きました。

制御で重要なのは、いかに高精度に制御するかです。
そこで出てくるのが予測です。
こういう制御信号を与えれば、こう動くだろうと予測する予測モデルを作ります。
そして、予測モデルの動きと実際の結果との差が小さくなるような予測モデルを作ることができれば、高精度に制御できます。
そして、脳でもこれが行われているわけです。

わかりやすいところだと物理現象です。
ボールから手を離すと、下に落ちるとか、投げると放物線を描いて落ちるとか。
脳は、生まれてからの経験で、どうすればどう動くか予測するようになるわけです。
この時使うのが物体の予測モデルです。
これは、物理現象だけじゃなくて、人間の場合も同じです。
どうすれば相手は喜ぶとか、怒るとかを経験で学んで予測するわけです。
そして、この時使うのが人の予測モデルです。

乾先生は、社会的生物である人間に必要な最低限の機能として、他者の行動を予測する予測モデルが必要だと1997年に提唱しました。
それと同じことを、コンピュータで再現可能なことを示して、僕は特許を取得しました。

簡単に説明すると、感情に従って行動する人のモデルを作って、そのモデルに基づいて人の行動予測をするというものです。
具体的には、言葉の意味理解の特許で、その前提となる考えが、相手の行動を予測できることこそが意味を理解の本質だということです。
詳しくは、第533回「世界初、心の特許」で詳しく語っていますのでよかったらそちらもご覧ください。

次は、人の脳は、いかにして現実世界の予測モデルを作るかです。
目の網膜からの情報は後頭葉の視覚野に送られます。

視覚野は一次視覚野、二次視覚野、三次視覚野とあって、視覚情報は多段階で処理されます。

そして、各段階で予測が行われて、予測誤差が最小となるように調整されます。

たとえば、一次視覚野では色や明るさの前段階の処理が行われます。
ここでの色は、網膜で検知した色情報そのままです。
二次視覚野では立体に関する処理が行われます。
さらに高次の視覚野では、本来の色の推定が行われます。

色っていうのは、同じ色でも、明るいところでみたときと、暗い影でみたときとで見え方がかなり変わります。
だから、網膜からの色情報をそのまま使っていたら間違った色を推定してしまいます。
だから、光や影がある三次元空間の予測モデルを作って、本来の色を推定します。
このことをわかりやすく示したのがチェッカーシャドー錯視です。
チェッカーシャドーを実際に作った動画があるので見てみます。
https://www.youtube.com/watch?v=z9Sen1HTu5o
(0:40~1:13ぐらい)
明るいところの黒と影になったところの白が、実際は同じ色なんですよ。
いやぁ、これ、何度見ても信じられないです。

網膜では、明るいところの黒と影になったところ白が同じグレーです。
それが、何段階かの処理を経て、三次元の立体になって、さらに光と影までつけると、同じ色でも場所によって見え方が違うってなるんです。
この処理をしているのが無意識さんです。
目の前にリアルな三次元世界を感じられるのは無意識さんのおかげなんですよね。

ただ、ここで一つ問題があります。
それは、脳のどこにその世界が作られるかです。

脳の中に仮想世界を作ったとしたら、それを見ている人がいるはずですよね。
それをホムンクルスって小人とします。
じゃぁ、そのホムンクルスが見ている世界が、誰が見ているんでしょう?
それは、ホムンクルスの脳の中にいる小人になりますよね。

じゃぁ、その小人が見てる世界は・・・って無限に続きますよね。
これがホムンクルスの無限後退っていうパラドックスです。

実は、脳の中の世界モデルっていうのは、あくまでもたとえです。
でも、網膜からの情報を多段階で分析して三次元世界を作るって説明していましたよね。
処理が進むにつれて、現実世界そっくりの世界が作られるわけです。
この説明は間違いじゃないです。
じゃぁ、どこが間違っているかというと、そのできた世界を認識するのは、意識ってことです。
もっといえば、脳の内側から認識するわけです。

脳内にできた世界モデルを内から見るか外から見るかの違いです。
僕らが、勘違いしてしまうのは、できた世界モデルを外から見てしまうってことです。
意識は、内から見てるんです。

まだ、わかりにくいとおもうので、網膜と一次視覚野の関係で説明します。

目の前の女の人を網膜でとらえて、それが一次視覚野に送られます。
このとき、右側は左脳、左側は右脳に送られます。
ただ、これが結構、複雑なんですよ。
見えてる光景の左端が1,中央が5,右端を9とするでしょ。
それが一次視覚野に送られたとき、左側の光景が右脳、右側の光景が左脳に送られます。
左側の光景って1~5でしょ。
これが右脳に送られます。
右側の光景って5~9でしょ。
これが左脳に送られます。
すると、、一次視覚野では顔の中央が左右の両側になるんですよ。
つまり、顔が真っ二つに分かれるんですよ。

網膜から一次視覚野に処理が進んだわけですよね。
処理が進むっていうことは、現実に近づくってことですよね。
でも、僕らはこんな風に真っ二つに分かれた顔を認識してないですよね。
そんな風に考えること、これが勘違いなんです。
どこを勘違いしたかっていうと、一次視覚野に投影された映像を外から眺めているってことです。
意識は、これを脳の中から認識するんです。

もっと単純な例で考えましょう。
たとえば、赤い直線があったとします。
赤い直線は視覚野の様々な領野で分析されますよね。
形が直線であるとか、傾きはどうだとか、色はどうだとかです。
それぞれ、別のニューロンが判断したわけです。
ところが、意識で感じるときは、赤い直線って一つのまとまりとして感じます。
わからないのは、直線と赤は、どうやって結び付いてるのかです。
これを結び付け問題といいます。

これに対して、ネコの視覚野を研究しているとき、一つの発見がありました。
それは、複数の視覚野で処理してるとき、ガンマ波で同期した脳波が見られたことです。
ガンマ波というのは40㎐の脳波です。

ニューロンが発火すると電磁波が発生して、それを記録したのが脳波です。
脳を内側から認識するというのは、ニューロンの発火を感じるということです。
今、目で見た現実世界が視覚野の様々な領野のニューロンで分析されたわけですよね。
意識が赤い線を感じるというのは、赤いニューロンと直線のニューロンの発火が同時に発火したわけです。
現実世界はもっと複雑で、世界を構成するのは、三次元の物体とか、光とか影とか色です。
それらは担当するニューロンが決まっていて、それらが同時に発火するわけです。
それらが同時に発火したとき、それらの構成要素を同時に感じるわけです。
これが、意識が三次元の世界を感じるということです。
脳の内側から世界を見るというのはこういうことです。

ガンマ波の40Hzというのは、1秒間に40回発火するということです。
つまり、1秒に40回、世界を感じるわけです。
アニメーションの場合、1秒に24フレームで、それで滑らかな動きを感じますよね。
そう考えたら、1秒に40回って、悪くない値だと思います。

意識が感じるのは、同時に発火する世界を構成する要素です。
外から見てわかる世界モデルが、脳内に作られるわけじゃないんですよ。

ただ、僕らが作っているマインド・エンジンは、実際に3DCGで仮想世界を作っています。
これは、あくまでも開発者とかユーザーが見てわかるようにしてるだけで、マインド・エンジンの意識は、3DCGを見てるわけじゃないんですよ。
じゃぁ、何を見てるかというと3DCGの世界を構成するデータです。
たとえば、点データとか、動きの方向とか、さらには「歩く」といった動きのパターンとかです。
これらは、現実の脳でも分析されるデータなので、マインド・エンジンは実際の脳を忠実に再現しているといえます。

150年前に提案された脳の仮想世界モデルが、今、コンピュータで実際に動くところまでできつつあります。
マインド・エンジンのお披露目まで、もう少しお待ちください。


はい、今回はここまでです。
この動画がおもしろかったらチャンネル登録、高評価お願いしますね。
それから、意識の仮想世界仮説については、よかったらこちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに!