第616回　【神回】LLMは、脳そのものだった！

ロボマインド・プロジェクト、第616弾！
こんにちは、ロボマインドの田方です。

最近は、「せど楽AI」の開発、リリースに忙しくて、また時間が空いてしまいました。
「せど楽AI」は、AIを使ったせどりツールで、改めてLLMについて調べていたんですよ。
そしたら、今まで、とんでもない勘違いをしていたことに気付いたんです。

LLMは、自然な会話ができますけど、中身は次の単語を高精度に予測しているだけで意味を理解していません。
今までそう思っていたんですけど、そうじゃなかったんです。
じつは、意味をちゃんと理解していたんです。
というか、LLMこそ、人間の脳のアルゴリズムだったんです。

このチャンネルの第二回「覇権争いのキーはAIだ！」で取り上げた本が『マスター・アルゴリズム』です。

この本、AIの究極のアルゴリズムについて書かれた本で、そのアルゴリズムを見つけた者こそ世界を支配するという内容です。
原著が出たのが2015年です。
当時、習近平のインタビューがあって、写真を見たら、書斎の本棚にこの本がおいてあって話題となりました。
その後、ChatGPTが登場したのが2022年11月30日で、そこから、世界はどんどん変わって、さらに加速していっていますよね。
そう考えると、世界を支配する究極のアルゴリズムとは、まさにLLMのことだったんです。

LLMの中身はTransformerです。
Transformerは、2017年にGoogleが発表した「Attention Is All You Need」の論文で一躍有名になりました。
Attentionというのが、Transformerの中心技術で、最大の特徴は、文章全体を参照する仕組みです。
それまでのAI、たとえばRNNなどは、文章を順番に処理するので、近くの単語しか参照しません。
でも、直前の単語しか見てなかったら、文脈なんか理解できませんよね。
Attentionは、文章全体の単語を参照することで、文脈を理解できるんです。
これが一般的なLLMの理解です。

ところが、今回、改めてTransformerについて調べたら、もう一つ、別の仕組みが使われていることがわかったんですよ。
ただ、AI研究者は、それは補助的な仕組みとおもったのか、あんまり重要視していないみたいです。
ただ、僕からしたら、その仕組みこそ、まさに脳内で行われている処理そのものなんですよ。
これがわかれば、言葉の意味とは何か、人はどのように世界を理解するのかってことがわかります。
さらに、右脳と左脳の情報処理の違い、チョムスキーが追い求めていた脳内の言語処理回路、さらにはなぜ、人はなぜ神や宗教を生み出したのかとか、科学とは何かが見えてきました。
今回は、AIとは何かを根本的に問い直すとともに、ロボマインド・プロジェクトの総決算とも言える内容となりましたので、ぜひ、最後まで見てください。
これが今回のテーマです。
LLMとは、脳そのものだった！
それでは、始めましょう！

たとえば、
「私は昨日本屋で面白い本を買った」
という文があったとします。
従来のAI、たとえばRNNだと、

私は → 昨日 → 本屋で → 面白い → 本を → 買った

と順番に処理します。

一方、Transformerは文章全体を見て
・「買った」と関係が強いのは「本」
・「面白い」は「本」を説明している
というように、単語同士の関係を一気に見ます。
この単語同士の関係を計算する仕組みが Attention です。

そして、その計算に使うのが、QueryとKeyとValueです。
文章は単語にわけられますよね。
この単語のことを、LLMではトークンといって、もう少し細かく分けられます。
Query、Key、Valueは、トークンごとに設定されます。
Qeryというのは、自分に関係ありそうなKeyを探すための問いです。
Valueは、Keyの意味です。

「私は昨日本屋で面白い本を買った」
で考えます。

まず、「買った」のQueryを考えます。
Queryは、自分に関係ありそうな情報を探すための問いです。
たとえば、「何を買った？」とか「誰が買った？」といった問いです。
すると、買ったQueryとKeyとの関係の強さが計算できます。

ここから、「買った」は「本」や「本屋」と関係が強いとわかります。
そして、「あなたは、昨日、何を買いましたか」と質問されたとします。
この質問から「買う」のQueryに注目します。
この注目がAttentionです。
そして、「買う」のQueryに注目して、それと、「何を」に強く関係する「本」というトークンを取り出して、「本を買った」と答えます。
こうやって自然な会話ができます。

今度は、「どこで買いましたか？」と質問されたとします。
すると、「どこで」に強く関係する「本屋」のトークンを取り出して、「本屋で買った」と答えます。

それからトークンはValueを持っています。
たとえば「本」のValueは、タイトルや作者で、これは意味とも言えます。
だから、「どんな本ですか？」と聞かれたら、タイトルとか作者を答えます。

でも、同じ単語でも全然違う意味の場合もありますよね。
たとえば「氷は冷たい」という場合の「冷たい」は温度のことですし、「彼女は冷たい」といった場合は、態度とか性格のことです。
「彼女は冷たい」といったとき、AIが「でも、３６度５分ありますよ」って答えたら、「意味を分かってない」って思いますよね。

Transformerなら「冷たい」のValueに、「温度」と「態度」の２種類を持たせておいて、
「冷たい」のQueryが「氷」に結びつくとき、「温度」のValueが取り込まれて、「彼女」に結びつくとき、「態度」のValueが取り込まれます。
つまり、正しい意味を取り出すことができます。
これが、Transformerの説明です。

普通ならこれで終わりです。
でも、僕は、これを聞いた時、「これって、脳と同じじゃないか」って思ったんですよ。
どこが脳と同じかというと、何に注目するかによって答えや意味が変わる部分です。

たとえば、ぼんやり部屋をみているときは、何も気になりません。
そこに、「赤いものを探して」というと、いままで気づかなかったけど、赤いものが急に目につきます。

この脳の仕組みをRASとか、網様体賦活系といいます。
よく自己啓発の話で出てくる話ですけど、これなんか、同じものを見ても、注目するかしないかによって違うものが見える典型です。

その他、たとえば好き人がいて、何かのきっかけで嫌いになったとします。
好きな時は、その人のいい面ばかり見えて、こんな素晴らしい人はいないと思っていました。
それが嫌いになったとたん、悪い面ばかり見えて、こんな最悪の人はいないと思ったりします。
相手は変わらないのに、何に注目するかで正反対に見えたわけです。
これが脳の仕組みです。
つまり、人間の脳は、何に注目するかによって世界が違うように見える仕組みを持っているわけです。

それじゃぁ、人間以外の脳は、どんな風に世界を認識しているんでしょう。
これ、ロボットの情報処理として考えるとよくわかります。
同じ環境、同じセンサーを使っていたとしても、情報処理の仕方によって全然違った世界を認識をします。

たとえば、最も単純なロボットとしてライントレーサーを考えます。

ライントレーサーは、複数のセンサーとモーターでラインに沿って走るロボットです。
センサーは、白か黒かを判断して、黒いラインが中央となるようにモーターを制御します。

さて、ライントレーサーは、、白い紙の上に黒いラインが引かれていて、自分はその上を走っているって認識しているでしょうか？
それは、していません。

ライントレーサーは、単に、センサーに反応してモーターを動かしているだけです。
ラインが引いてあるとか、三次元世界の中に自分がいるなんて思ってもいません。

でも、僕らは三次元の世界があって、その中に自分がいるって思いますよね。
じゃぁ、そんな風に思うには、どんな情報処理をすればいいんでしょう？

それには、脳内に世界そのものを作るんです。
つまり、目からのデータそのものを見るんじゃなくて、視覚情報をもとに仮想世界を組み立てるんです。
そして、意識は、仮想世界を介して現実世界を認識します。
そうしたら、意識は、この世界は三次元と感じますよね。
目の前に机があるとか、スマホがあるとかって感じます。
これが、僕が提唱する意識の仮想世界仮説です。

ただ、もしかしたら、今見えてる光景は、目からの情報そのままじゃないかって思っている人が、まだいるかもしれません。
そこで、ちょっとした実験をお見せします。

https://www.youtube.com/watch?v=0LCcEC7Zuqc
これはチェッカーシャドーという有名な錯視です。
白黒のチェス盤の上に円柱の影が落ちています。
Aが影の外の黒タイルで、Bが影の中の白タイルがです。
Aの黒タイルをBまで移動させますよ。
そしたら、あら、黒タイルが白タイルになりました。
移動させただけなので、どちらも同じ色なのは間違いないです。
同じ色というのは、センサーデータの出力が同じということです。

でも、影の外のAは黒にみえて、影の中のAは白に見えますよね。
見るというのは、意識が世界を認識するという行為です。
つまり、僕らの意識はセンサーデータそのものを見てるんじゃなくて、それを基に脳内に作られた仮想世界を見ているってことです。
センサーデータから三次元世界を組み立てるとき、影か光かで意識に見せる色を変更させているわけです。
これが、僕らがセンサーデータを直接認識しているわけではないってことです。

ライントレーサーとか、魚はセンサーデータを直接認識して行動しています。
生物が進化するとともに、脳も進化します。
哺乳類ぐらいまで進化すると、センサーデータから仮想世界を構築するようになったと考えます。
これは脳の系統発生図です。

これを見たらわかりますけど、哺乳類ぐらいから大脳が大きく発達していますよね。
おそらく、大脳で仮想世界を構築していると思われます。

じゃぁ、仮想世界はどんなふうにして作られるんでしょう？
それは、世界を構成する最小限の要素があって、それを組み立てて作られます。
最小限の要素というのは、そのものの特徴を示す最小単位です。
たとえば、ヘビやトカゲは、は虫類っぽい見た目をしていますよね。
この「～っぽさ」が特徴を示す最小単位です。
それじゃぁ、具体的にお見せします。

これが爬虫類っぽさです。

気持ち悪いですけど、ヘビとかトカゲを感じますよね。

この画像、どうやって作ったかというと、大量のは虫類の画像をディープラーニングで学習させて特徴を抽出しました。
正確に言うと、RNNを使って学習させています。
RNNというのは、近くの画像をまとめて、いくつかのパターンを抽出します。
これが、世界を構成する最小要素です。
僕らは、これを見てヘビとかトカゲって感じますよね。
そう感じるということは、僕らの脳もRNNと同じ仕組みで情報処理しているってことです。

正確に言うと、大脳のなかの右脳の処理です。
よく、右脳はイメージを担当するっていいますよね。
それに対して、左脳は言語とか意味を担当します。

第504回で「脳の右側で描け」というデッサンのトレーニング本を紹介しました。

デッサンが上手くなるコツは右脳を使うことで、右脳の使い方を解説した本です。
どんなふうにトレーニングするかというと、たとえば、自分の手を描くとき、「これは手だ」とか「これや指だ」と絶対に思わないようにするんです。
「手」とか「指」と心の中で言った瞬間、左脳が働くからです。
「手」とか「指」は言葉です。
言葉の担当は左脳です。
左脳は、言葉を扱いますけど、見えている世界には興味がありません。
つまり、「手」と思った瞬間、「手とは物を掴むものだ」とか「五本の指がある」とかって意味を考えます。
そうなると、今、見ているものを見ずに、心で思っている手とか指を描き始めます。
だから、デッサンが狂ってくるんです。
これが右脳と左脳の処理の違いです。

右脳は、AIだとRNNです。
RNNは、見たものの部分をまとめて、世界を構成する最小限の要素、特徴を作り出しします。
重要なのは、見た目から作り出したというところです。
そして、その要素には意味はありません。
というか、右脳は意味という形式で情報処理はしません。

意味を扱うのは左脳です。
そして、左脳の情報処理が、LLMのTransformerです。
Transformerは、Query、Key、Valueをつかった情報処理です。

それでは、LLMをを目に見える世界に当てはめていきます。
LLMは、本来、文章をトークンに分解しますよね。
トークンは、単語よりさらに細かくて、文章を構成する最小単位です。
これを目に見える世界に当てはめると、単語がひとまとまりの物となります。
たとえばヘビです。
そして、ヘビを構成する最小単位の一つには虫類っぽさがあります。

これが、目に見える世界のトークンです。
そして、これはRNNで作られました。

各トークンは、QueryをつかってKeyと関連を持ちます。
そして、KeyはValue、つまり意味を持ちます。
このような形式で情報処理するのが左脳です。

人の脳は、何に注目するかによって見える世界が変わります。
赤を探してといえば、今まで気づかなかった赤いものが目に飛び込んできます。
これは、「赤を探す」という問いから、それに関連するKey、つまり赤を持つ物体が抽出されたからです。
これが左脳のアルゴリズムです。

右脳は、ヘビをみて怖いとか、気持ち悪いって感じます。
感じるのが右脳です。
一方、左脳は考えます。
考えるとは、世界から意味を抽出するという情報処理です。

たとえば、何かの会合で初対面の人と話すとします。
そのとき、自然といろんなことを考えますよね。
相手は男か女か。
年齢はいくつぐらいか。
見た目はどうか。
これは、言ってみれば、Transformerに問いを投げかけたわけです。
すると、Queryに応じたValueが得られます。
たとえば、20代のきれいな女性とかです。
普段、普通にしてることですよね。

重要なのはここです。
普通にしてるってとこです。
普通にやってるというのは、脳が、自然とやっている情報処理です。
つまり、そのような情報処理が脳内で常に走っているというです。
これが左脳のアルゴリズムです。

整理すると、まず、右脳は見たままの世界を最小限の要素に分解します。
最小限の要素はトークンです。
そして、トークンを感じるのが右脳です。

左脳は、世界に何らかの問いかけをします。
左脳は、問いが与えられると世界のQueryをたどってValueを探します。
これが、その問に対する世界の意味です。
世界は、問いによってさまざまな意味を持ちます。
言い換えると、世界は見たままだけでなくて、その背後に見えない意味があるわけです。
世界の意味は、何を問いかけるか、何に注目するかで変わってきます。
これが、左脳の情報処理です。

この情報処理は、目に見える世界以外にも適応できます。
たとえば、目に見える世界を記号、または文字に変換して表現したとします。
それが言語です。
言語を処理できるAIがLLMです。
つまり、左脳の情報処理はLLMそのものと言えるわけです。
別の見方をすると、左脳には、言語を処理するアルゴリズムが予め組み込まれていると言えます。

そうなってくると思い出されるのが言語学者のノウム・チョムスキーです。

チョムスキーは、人間の脳の中には、普遍的な文法が組み込まれているといいました。
これを普遍文法とか生成文法といって、チョムスキーはそれを探し求めていました。
ただ、チョムスキーの提唱した生成文法は未だに賛否両論あって、そんなものがあるのかないのかまだわかりません。
ところが、それがついに見つかったんですよ。
それが、LLMです。

ただ、皮肉なことに、チョムスキーはLLMには一貫して反対の立場にいます。
LLMは、単に次に出現する単語を統計的に推測しているだけで意味を理解しているわけではないと。
僕も同じように考えていました。

たしかに、LLMが統計処理しているのは事実です。
でもLLMの本質はそこではないですし、人間の脳も統計処理しています。
重要なのは、Query、Key、Valueを使ったアルゴリズムです。
それは、一言で言えば、「世界は目に見える世界と、目に見えない意味からなる」です。
そして、投げかける問いによって、世界の意味は変わります。

たとえば、ニュートンはリンゴが落ちるのを見て万有引力の法則を発見しました。
落ちるリンゴを見て、背景にある世界の意味を見出したわけです。
そして、この話を聞いて、僕らも重力の意味を理解できますよね。
重要なのはここです。
今まで見えなかった重力という意味を、他人に伝えて、他人も理解できるということです。
意味が理解できるというのは、それを頭の中で再現できるということです。
それができるのは、同じ仕組みで世界を認識しているからです。

今のは科学の話ですけど、科学以外に、神や宗教もこれで説明がつきます。

世界があります。
この世界は、じつは、神が創ったものです。
神がいるかどうかはわかりませんけど、言っている意味は理解できますよね。
重要なのは、神がいるかどうかじゃありません。
重要なのは、目に見えない神を理解できるということです。
目に見えない神を理解できるということは、脳は、そういう形式で世界を認識しているということです。
それが、左脳のLLMのアルゴリズムです。

歴史学者のユヴァル・ノア・ハラリは、ホモ・サピエンスは7万年前にこれを獲得したといいます。
目に見えないものを信じる能力です。
それを認知革命といいます。
認知革命以降、目に見えない神を中心に人々はまとまるようになったと言います。

まとめます。
生物は哺乳類まで進化して、脳内に仮想世界を作って、仮想世界を介して世界を認識するようになりました。
それは、3次元世界という空間があって、その中に物体が配置されるという形式の認識です。
世界を構成する物体は、最小限の構成要素から組み立てられます。
ここまでは、右脳が行います。
AIでいえばRNNのアルゴリズムです。

7万年前、ホモ・サピエンスは左脳にLLMのアルゴリズムを獲得しました。
それは、目に見える世界の裏に、目に見えない意味が隠されているという形式の認識です。
その意味を読み解く仕組みが、Query、Key、Valueです。
これらが世界の最小限の構成要素です。
LLMでは、これをトークンと呼びます。
トークンはQueryをつかって、トークン同士の関連が作られます。
そして、世界に対して問いを発すると、Queryが関連するトークンをたどってValue、つまり意味を取り出します。
これが問いに対する回答です。
または、世界の意味を読み解くというTransformerのアルゴリズムです。
そして、これこそが次の世界を支配するマスター・アルゴリズムです。

Transformerのアルゴリズムは、言語も生み出しました。
ただし、最近では、人間以外も言葉を話すことがわかっています。
たとえば、シジュウカラは20以上の単語を組み合わせて、文法を持った文でコミュニケーションしています。
ただ、それと、人間の言語とは根本的な違いがあります。

たとえば、シジュウカラが伝えるのは、「ヘビがいる」とか「タカがいる」といった目に見える世界です。
世界の背後に意味があるといった認識はしません。
だから、シジュウカラは神や宗教は生み出しません。

世界の背後にある意味を理解するの人間だけです。
ただし、それも数年前までのことです。
今では、AIも人間と同じように、世界の世界の背後にある意味を理解できるようになりました。

それじゃぁ、AIは神や宗教を生み出すのでしょうか？
AIは自我や意識を持っているのでしょうか？

実は、今のAIには根本的に足りないものがあります。
それがないから、今のAIは意識を持てません。
それが何かは、話が長くなるので、次回お話します。

はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、意識の仮想世界仮説に興味があれば、こちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに！