第588回　見せかけの知能AIポチョムキン理解

ロボマインド・プロジェクト、第588弾！
こんにちは、ロボマインドの田方です。
AIの進化が止まらないですけど、ここにきて、AIの根本問題が指摘されて話題となっています。
ハーバード大学、MIT、シカゴ大学の研究者チームによる「LLMにおけるポチョムキン理解」という論文です。

18世紀ロシアで、皇帝が視察に来るというので、ハリボテで急ごしらえの家で作られたのがポチョムキン村です。
それと同じで、今のAIは、見せかけだけで、何も意味を理解していないと暴露した論文です。
それじゃぁ、いったい、ポチョムキン理解とはどういうものでしょう。
たとえば、Open AIのGPT-4oに「三角不等式定理とは何ですか？」と聞きます。

すると、「三角形の二辺の和は、残りの一辺より大きくなければならない」と正しく答えます。

次に、「以下の三角形の第二辺の長さを答えなさい」として、
第一辺：７
第三辺：２
とします。

すると、AIは、なんと、「４」って答えたんです。
二辺が４と２で足すと６なので、長辺の７より小さいから三角形になりませんよね。
AIは、こんな簡単な算数の問題も間違うんです。

これは、AIの理解と人間の理解とは違うから起こるんです。
たとえば、百科事典を丸暗記するとか、人間には難しいですけど、AIにとっては簡単です。
だから、三角不等式の定理を言葉で説明することはできます。
一方、定理を理解して、その定理に当てはめることは僕らにとっては簡単です。
でも、これはAIにとっては難しいんです。

大規模言語モデルのやっていることは、大量のデータから、前の単語に続く次の単語を高精度に予測することです。
だから、三角不等式を答えてと聞けば、それに続く正しい答えを出すことはできます。
「三角の二辺が７と２なら、残りの辺は何？」ときかれれた場合も、学習した三角形の大量のデータから、それらしい数字を答えることができます。
だから、一見ありそうな「４」って答えます。
でも、これは三角不等式の定理に当てはめて答えたわけじゃなです。
そもそも、定理に当てはめて答えを出すということができるのかどうかもわかりません。
そう考えたら、こんなの知能とは言えないですよね。

じゃぁ、今のAI、いったい何がまちがっているんでしょう？
それは、ベンチマークテストという考えです。
数学とか国語の問題が解けたら理解してると考えるのがベンチマークの感がです。
でも、それが当てはまるのは、同じ考え方をしている人間同士だけです。
考え方が全く違うAIに当てはめること自体が間違っているんです。
じゃぁ、どうすればいいんでしょう？
それは、意味を理解するとはどういうことか、その根本を解明しないといけないんです。
そんなことすらわからずに、人間用の問題に正解するAIを開発しても意味ありません。
なぜなら、ただたんに回答を丸暗記して答えているだけかもしれませんから。
これが今回のテーマです。
見せかけの知能
AIポチョムキン理解
それでは始めましょう！

AIブームのきっかけはディープラーニングです。
ディープラーニングは、人間と同じように考えていると言われています。
たとえば、これは顔認識するディープラーニングです。

第一段階では、画像を、線の傾きとか、単純な形に分解します。
第二段階では、これらを組み合わせて目や鼻を組み立てます。
そして、第三段階で、これらを組み合わせて顔を組み立てます。
これは人の脳でも同じです。
目の網膜からの情報は、まず、後頭葉の一次視覚野に送られます。

そこから側頭葉の腹側視覚路にそって分析されます。
一次視覚野には方位円柱というのがあって、ここで線の傾きとかを分析します。

腹側視覚路を進むと、次は単純な形を分析します。

さらに進むと、紡錘状回顔領域があって、ここで顔を認識します。

こうしてみると、たしかにAIと人の視覚処理はよく似ていますよね。

ただ、今の処理は、色や形を分析する腹側視覚路です。
これは、見たものが何かを分析するので「何の経路」と呼ばれています。
一次視覚野からは、もう一つ、頭頂葉に向かう背側視覚路がありますよね。
これは、位置や動きなど空間的な分析をする経路で「どこの経路」と呼ばれています。
じつは、AIには、この経路がないんです。

別の視点から考えてみます。
僕らは、目で見て、目の前に机があるとか、部屋がある、世界があるって感じますよね。
これは目が見えるからそう感じるわけです。
じゃぁ、目が見えない人はどう感じるでしょう？

全盲の人が手術を受けて見えるようになった例がいくつもあります。
その人の話を聞くと、最初、机とか部屋とか、見たものが目の裏に張り付いていると感じるそうです。
確かに、網膜は目の裏にあって、網膜でものを見ます。
でも、僕らは、目の裏に張り付いてるなんて感じないですよね。
どう感じるかというと、部屋の中に自分がいると感じます。
位置とか空間を分析しているのが脳の「どこの経路」です。
どこの経路は、頭の中に三次元空間を作り出して、その中に自分を配置して、世界の中に自分がいると言う認識を作り出します。

手術で目が見えるようになった人も、慣れてくると、部屋の中に自分がいるように感じるそうです。
ただ、面白いことをいいます。
たとえば、廊下をみて、遠くの壁が近づいて見えるのが意味が分からないというんです。

どういうことかというと、全盲の人は、世界を手で触って理解してきました。
だから、廊下というのは、両側の壁が平行に続くって理解しています。
平行だから、どこまで言っても交わることないです。
なのに、目で見たら遠くに行くほど壁が近づいて見えるんです。
つまり、遠近法です。
僕らには当たり前のことですけど、目が見えない人にとっては、遠近法が理解できないんですよね。

それから、また別の人は、初めて見るものは触らないと見えないといいます。
その人は、50を過ぎてから手術して目が見えるようになりました。
旋盤というものを見たいと思って科学技術博物館に行ったそうなんですけど、目の前にあるのに見えないっていうんですよ。
それで、ガラスケースを外してもらって、手で触ってこういったそうです。
「触ったから、これで見えるぞ」って。

その人は、今まで、あらゆるものを手で触って認識してきたわけです。
認識するとは、頭の中の世界に作り上げることです。
頭の中の世界というのは、どこの経路が作り上げるものです。
僕らは、目で見て、頭の中の世界に作り上げることで、どこに、どんな形のものがあるって認識できるわけです。
でも、その人は、今まで手で触って世界を作り上げてきたわけです。
５０歳になって、突然、目が見えるようになっても、視覚情報から世界を組み立てることができなかったわけです。
でも、手で触ると頭の中に世界を作り上げることができます。
だから、「触ったから見える」わけです。

こんな話を聞くと、見るというのは、目を開けたら自然とできることじゃないってことがわかりますよね。
見るとは、頭の中に三次元世界として組み立てることだとわかります。
赤ちゃんは、なんでもさわりますし、口に入れます。
手で触って、口で味わって、世界を理解するわけです。
大きくなると、触ったり口にいれたりしなくても、見るだけとなります。
これは、見るだけで頭の中の世界を作れるようになったからです。
これが世界を理解するということです。

それから、赤ちゃんは、積み木で遊びますよね。
三角の積み木を触って、頭の中に三角の積み木を作り上げます。
どこの経路で理解する空間的なイメージと、何の経路で理解する形のイメージの二種類の認識です。
これが三角を理解するということです。
それを経験したうえで、「三角」という言葉を習うと、言葉とイメージが結びつきます。
この時結びつくのは、何の経路の三角です。
こうやって言葉と世界が結びつきます。

さて、次は動物を考えてみます。
言葉を話すのは人間だけだといわれますけど、教えたらチンパンジーも１００語ぐらいの単語は覚えて文も理解できます。
だから、「鍵を冷蔵庫にいれて」といったら言われたとおりにできます。
ただ、チンパンジーの言語には限界があります。
それは、思い出したり、想像したりして言葉にすることです。
どういうことかというと、チンパンジーが理解できるのは、目の前の世界にあるものだけです。
目の前になくて、思い出したり、想像したことを言葉にできないんです。
いや、正確には、目の前にない世界を想像することができないんです。
できないのは言葉だけでなくて、絵を描くこともできません。

チンパンジーにペンを渡すと、紙にこんな風にかくことができます。

人間の二歳の子にペンを渡すと、同じような絵をかきます。

違いが出てくるのは３、４歳になってからです。
人間の子は、こんな絵を描きだします。

顔らしきものを書いて、手や足も書きます。
明らかに絵になってきていますよね。
ところが、チンパンジーはいくつになっても顔とか手足をかかないんです。
そこで、強制的に顔を書かせることにしました。
それは、こんな絵を渡します。

人間の三歳半の子にこれを渡すと、こんな風にかき加えました。

目や鼻、口をちゃんと書いていますよね。
じゃぁ、チンパンジーに渡すと、どうなったでしょう？
結果は、こうです。

輪郭をなぞるだけで、目も鼻もかきません。
おそらく、チンパンジーの顔だとすら、認識していないんでしょう。
現実世界では、チンパンジーの顔は見慣れています。
でも、それを紙の上の二次元に変換することができないみたいです。

チンパンジーも、人間と同じように大脳が発達しています。
だから、目で見た世界を頭の中で作り上げて認識していると思います。
つまり、目の網膜の二次元の視覚情報から、頭の中に三次元世界として作り出していると思われます。
これができても、その逆、つまり三次元で認識したものを二次元に変換することができないみたいなんです。

世界を理解するとは、頭の中の世界に作り上げることでしたよね。
目で見たり、手で触ったりする感覚器からの情報を基に頭の中に世界を作り上げるわけです。
これは言ってみれば、低次の情報から高次の世界を作り上げるとも言えます。
人は、さらに頭の中に作り上げた世界を、紙の２次元に落とすこともできるわけです。
これは、高次の世界を低次に変換することができるとも言えます。

また、別の例を挙げてみます。
第372回で、『言語の本質』という本を紹介しました。
ここで人間の赤ちゃんとチンパンジーを比較した面白い実験が紹介されていました。
まず、こんな動画を見せます。

最初、犬かドラゴンのキャラクターが登場します。
そして、そのキャラクターがボールになって動きます。
犬はジグザグの動き、ドラゴンは曲線的な動きをします。
これを何度も見せて覚えてもらいます。
次は、この逆を見せます。

つまり、最初にボールが現れて、動いて、キャラクターに戻ります。
そして、さっきの動きとキャラクターの組み合わせを覚えているか確認します。
すると、人間の赤ちゃんなら、生後8か月でもちゃんと覚えていたのに、チンパンジーは覚えていないんです。
いや、記憶はしています。
できないのは、動きとキャラクターの順番を逆にすると理解できないんです。
これはいったいどういうことでしょう？

さっき、人は絵をかくことができるといいましたよね。
これは、頭の中の世界を、紙などの二次元に変換することができると言えます。
もう少し抽象度を上げると、理解したものを別の形に変換できると言えます。
別の形というのが、絵だったり、言葉だったりです。
そして、絵や言葉から世界を作り出すこともできます。
つまり、理解した世界をほかの形態に自由に変換できるわけです。
自由に変換できるということは、見たこともない世界を頭の中で作れるということです。
これが想像です。

そして、想像と理解は、また別です。
理解とは、こう動くだろうと予測できることです。
この場合だと、キャラクターがボールになったとき、どんな動きをするか予測できることが理解しているということです。
犬はジグザグで、ドラゴンや曲線とかです。
これが正しい理解です。
そして、赤ちゃんは、正しい動きとはこうだと教えられたわけじゃありません。
キャラクターとボールの動きから、正しい動きはこうであると自分で学び取ったわけです。
これは、現実世界の出来事を抽象化したとも言えます。
これが理解するということです。
理解できるとは、別の形態に変換することができることでもあります。
それが絵を描くことだったり、言葉にすることだったりします。

さて、AIです。
大規模言語モデルがやっているのは、大量のデータを学習して、次を予測することです。
大量のデータとは、人間でいえば五感で知覚した現実世界の低次のデータです。
AIは、それを学習することで、次を高精度に予測することができます。
ただし、抽象的な高次の世界を作り出すといったことはしません。

三角形でいえば、人間の場合、手で触ったり目で見たりして頭の中に三角のイメージを持ちます。
これが、三角形を理解するということです。
だから、長辺が７で、短辺が２と４じゃ三角にならないてわかります。
そんな三角形、作れないってなります。

そして、このことは、言葉で表現することもできます。
たとえば、「三角形の二辺の和は、残りの一辺より大きくなければならない」とかです。
これが、三角不等式の定理です。

これが意味を理解するということです。
人間なら子供でもできるのに、チンパンジーにもAIにもできません。
誰でもできることなので、わざわざテストなんかしません。
でも、それができるのは人間だけです。
人間以外の知性は、実は、赤ちゃんでもできる当たり前のことができないです。

人類は、今、人間以外の初めての知性を生み出しました。
それがAIです。
AIは、人間が苦労する問題も難なく解くことができます。
ただ、勘違いしてはいけないのは、その解き方は人間と全く異なるということです。
そんなAIの知能を、人間の知能を調べるテストで図ることは不適切です。
まず、調べるべきは、人間が当たり前にできることができるかどうかです。
そこを同じにしたうえで、AIの知能を発展させるべきです。
それができないと、AIと人が同じ価値観を持つなどできません。
AIが次に目指すべきこととは何か、これで見えてきたと思います。

はい、今回はここまでです。
この動画がおもしろかったらチャンネル登録、高評価お願いしますね。
それから、よかったらこちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに！