ロボマインド・プロジェクト、第464弾!
まずは、これ、見てください。
これ、何か分かりますか?
これは、僕の脳内です。
脳細胞に、どんなイメージが保存されてるかを並べたマップになってます。
たとえば、この辺で動物を考えます。
ここは犬ですねぇ。
犬というより、犬っぽいイメージです。
いろんな動物のイメージがでてきましたねぇ。
ヒョウっぽいのとか、鳥もでてきましたねぇ。
ここはカエルからヘビですかねぇ。
花のつぼみ、パイ?、種、何かよく分からないものがでてきました。
あ、いや、人っぽいですねぇ。
なんか、顔が怖いですねぇ。
これが僕の脳内です。
というのは嘘です。
今の動画は、Activation Atlasといって、ニューラルネットワークが何を見てるかを可視化したサイトから取ってきたものです。
グーグルとOpenAIが公開してるものです。
これ、具体的に何をしてるかというと、100万枚の画像をCNNと言われる畳み込みニューラルネットワークで学習させてます。
ここでいう学習って言うのは、画像の中で繰り返し出てくるパターンを特徴として抽出することです。
一つのニューロンが一つの特徴を学習するわけです。
たとえば、あるニューロンは縦線に反応して、あるニューロンは犬の耳に反応するとかです。
特徴は多次元ベクトルで表されますけど、これを可視化してマップにしたのが今見せたActivation Atlasです。
これ、脳内の形態認知と同じなんですよ。
側頭葉には、いろんな形に反応するニューロンがあって、人は、これを基にものを認識します。
だから、Activation Atlasが脳の中身というのもまんざら嘘じゃないんです。
まぁ、ここまでの話はいろんな人が指摘してます。
今回は、その先の話です。
イメージの処理は右脳が担当です。
一方、左脳の担当は言語とか理論的思考です。
じゃぁ、右脳と左脳の根本的な違いって何なんでしょう。
これが、今まで分からなかったんですけど、今回、Activation Atlas見てたら分かったんです。
これが今回のテーマです。
これが右脳の中身だ!
それでは始めましょう!
Activation Atlasは100万枚の写真を学習して、学習した中身をマップで示したものです。
学習したのは、画像の特徴というか、それっぽさです。
たとえば、このあたりで学習してるのは犬っぽさです。
このあたりは動物のモフモフ感です。
モフモフした動物を見て、「かわいい」とか「なでなでした」って思うのは、このもふもふニューロンが反応してるからでしょう。
このあたりはヘビ柄ニューロンですねぇ。
こっちは、にょろにょろニューロンです。
「うわ、気持ち悪」とかって感じてるのは、これらのニューロンが反応してるからなんでしょう。
生まれてから今まで見てきたものから様々な画像を特徴パターンとしてニューロンが学習したわけです。
そして、たとえば犬を見たとき、
このニューロンを10%、このニューロンを3%とかって重ね合わせて今見えてる犬に当てはめるんですよ。
それを感じて「あっ、犬」ってなるんです。
これは視覚だけでなくて聴覚も同じです。
例えば音楽も、メジャーコードの曲を聴けば楽しくなります。
マイナーコードの曲を聴けば悲しくなります。
これも、メジャーコード、マイナーコードに反応するニューロンがあって、それが反応してるんでしょう。
コードって分け方だけじゃなくて、リズムとかメロディも特徴パターンとしてニューロンが学習してるんです。
他にも、黒人っぽいグルーヴ感に反応するニューロンとか、サザンっぽい曲に反応するニューロンとかあるわけです。
複数のニューロンが同時に反応して複雑な感覚を作り上げるんです。
音楽や絵画を担当するのは右脳です。
第462回では、左脳が損傷しても作曲や指揮を続けたり、絵を描き続けたアーティスの話を取り上げました。
おそらく、右脳にはいろんな画像や音のパターンに反応するニューロンがあるんです。
僕らが見たり聴いたりして感じてる世界って、そんなニューロンが反応することで作られてるわけです。
右脳がいろんなパターンで世界を認識するのなら、じゃぁ、左脳は何をしてるんでしょう?
左脳が扱うのは言語とか理論的な思考です。
それから抽象的な概念も左脳が扱います。
このチャンネルでもよく取り上げるアマゾンの未開の民族、ピダハンは時間って概念を持ちません。
亡くなった家族を思い出したり、将来のことを心配することもなくて、今、現在のことしか認識しません。
それから、色や数字を表す言葉も持っていません。
かといって、色が分からないわけじゃありません。
たとえば赤色なら血の色、青色なら熟してない果実の色って具体的なものを使って表現します。
数字は3までしか認識できなくて、4以上は全てたくさんです。
これらの時間や色、数字は抽象概念です。
ところで、具体と抽象の違いって何でしょう。
たとえば、数で考えてみます。
リンゴが三つあって「3」といいます。
ボールが三個あっても「3」といいます。
こんな経験をすることで、3つものがあれば3というんだなぁって理解できるようになるわけですよね。
たぶん、3個ぐらいまでならパッと見て何個かすぐわかります。
これは、画像パターンで認識してるからだす。
ただ、5個とか6個とかバラバラに置かれると、パッと見て分からないですよね。
このあたりから、画像パターンじゃない方法で数を認識しないといけなくなります。
それは、1っ個ずつ数えるとかです。
つまり、1ずつ増えるって規則を使うわけです。
そんな数の規則がある世界を数学世界と呼ぶことにします。
時間とか数字とか抽象的な概念を扱うのが左脳です。
現実に存在して、目で見たり手で触れるものが具体です。
3個のリンゴとかが具体です。
そこから個数の「3」を取り出した数が抽象です。
数字は現実世界で手でさわれる存在じゃありません。
じゃぁどこに存在するかというと、数学世界です。
現実世界とは別の抽象的な世界を扱うのが左脳です。
今度は幾何学を考えてみましょう。
自然界には純粋な直線は存在しません。
なぜなら、直線の定義は真っすぐで太さがない線だからです。
紙に引いた直線は必ず太さがあるので純粋な直線とはいえません。
純粋な直線があるとしたら、それは頭の中だけです。
直線が存在するのは、しいて言えば幾何学世界です。
幾何学世界には直線とか円って概念が存在します。
現実世界で見てるのは、紙の上に投影した概念として直線や円です。
数字も同じです。
5とか10は概念です。
それが現実世界では、5個のリンゴ、10個のボールって具体的な形で現れるわけです。
現実世界に存在しない概念を扱うのが左脳です。
この視点で考えると、右脳と左脳の違いがより深く分かってきます。
右脳が扱うのは画像のパターンや音のパターンです。
画像パターンは目で知覚します。
音のパターンは耳で知覚します。
現実世界は、知覚できるパターンの組み合わせで作られます。
それを扱うのが右脳です。
大量のパターンを使って現実世界を認識するのが右脳ってことです。
左脳が扱うのはパターンじゃありません。
数字とか形といった概念です。
重要なのは、「1」とか「2」とか、「直線」とかって概念に名前とか記号が付けられることです。
記号化することで、左脳は概念を操作できるようになりました。
たとえば、「1+2=3」とかって数字って概念を足したり引いたりできるようになりました。
一方、右脳はパターンを認識したり操作できません。
右脳が処理してるのはヘビ柄パターンとにょろにょろパターンを組み合わせてヘビだって認識することです。
組み合わされた結果を一瞬で感じます。
一度感じたものは、感じ方を変更したり操作したりできません。
メジャーコードの曲を悲しく感じるとかできません。
これが右脳の処理です。
右脳にあるのは今、この瞬間感じたものだけです。
だから、右脳には今、感じたものしかありません。
過去や未来はありません。
「こうなるということは、次はこうなるだろう」なんて推論や思考といった処理は右脳はしません。
ただ、今を感じるだけです。
一方、左脳が扱うのは抽象的な概念です。
それは、感覚器で直接感じるものじゃなくて概念を記号化したものです。
記号は感じるものじゃなくて操作するものです。
左脳が行う記号操作、これが思考です。
記号操作は現実とは別の世界で行います。
たとえば数学世界では、数字を足したり引いたり操作します。
その他の世界の例として所有権世界というものを考えてみます。
所有権世界は、物の持ち主って概念を扱う世界です。
所有権世界を理解してるから、ものをあげたり、もらったりって言葉の意味を理解できるわけです。
「畑の作物を勝手に取るな」ってサルにいくら言っても理解できないのは、サルは所有権世界で考えられないからです。
山にある木の実を食べるのと、畑の作物を食べるのとの違いが理解できないわけです。
具体的な世界しか認識できないから、山の木の実も畑の作物もどっちも食べ物としか認識してないってことです。
左脳は、世界にあるものに名前や記号を付けるて操作します。
その操作手順を書いたものが言葉です。
たとえば「リンゴを100円で買った」といった文があったとします。
この文は、現実世界にあるリンゴを、所有権世界で操作した内容を記述したものです。
さらに、過去形とすることで、時間という抽象概念も表現しています。
これができるのが左脳です。
「買う」とか「過去」って概念は意味です。
意味を持った言葉を扱えるのが左脳です。
じゃぁ、右脳が扱うのは何でしょう?
それは、目や耳で直接知覚できるものです。
それは美しい景色だったり、踊りたくなる音楽です。
それらは記号操作とは違います。
感じるものです。
モフモフした動物の感じとか
ヘビ柄の感じとか。
こういった感じを扱うのが右脳です。
右脳と左脳は、全く異なる情報処理をしてるってことがわかりますよね。
さて、ここでAIについて考えます。
今のAIは、大量のデータからパターンを学習するので右脳の処理ですよね。
だから、画像や音楽には合っています。
でも、言葉はどうでしょう?
言葉は左脳です。
ところが、今のAIは、言葉も画像と同じやり方で処理しています。
それが大規模言語モデル、LLMです。
大量の文字データを学習して単語の並びのパターンを学習してるわけです。
だから、LLMは意味を理解してません。
この単語の並びのパターンなら、次はこの単語が出現するだろうってパターンから予測するだけです。
音楽を聴いて、次の音を予測するのと同じやりかたで文を生成してるんです。
これの何が問題かというと、言葉の本体は文字じゃないからです。
言葉の本体は頭の中にある概念です。
概念を現実世界で扱えるように記号化したのが言葉です。
概念というのは意味です。
意味を無視して記号の部分だけを学習しても意味ないですよね。
よく、ChatGPTは言葉の意味を理解してないって言いますけど、こういうことです。
これじゃぁ、人と同じとはいえないですよね。
次世代AIは、人間の脳と同じように考える汎用人工知能と言われています。
そのためには、右脳と左脳の処理の中身を分かったうえで、それぞれの方法で情報処理をしないといけません。
でも、今のAI業界は、このことに、まだ、誰も気づいていません。
はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、善かったらこちらの本も読んでください。
それじゃぁ、次回も、おっ楽しみに!