第543回 最新論文 今のAIに欠けているもの


ロボマインド・プロジェクト、第543弾!
こんにちは、ロボマインドの田方です。

今回は、先月公開された最新のAI論文を紹介しようと思います。

タイトルは「汎用人工知能(AGI)のために大規模言語モデル:基本原理とアプローチの調査」です。
AGIというのは、ざっくりいうと人間と同等の知能や知性を備えたAIのことです。
いってみればドラえもんみたいなAIのことです。
ChatGPTは、聞いたら何でも教えてくれますけど、ドラえもんとは違いますよね。
たとえは、姿かたちをドラえもんそっくりのロボットを作って、中身をChatGPTにしたとしましょ。
夏休みの宿題ができなくて、「ChatGPT、読書感想文書いて」って頼んだりはするかもしれません。
でも、学校で楽しいことがあって、「そうだ、帰ったら、ChatGPTにも、このことを教えてあげよう」とは思いませんよね。
じゃぁ、ドラえもんにあって、ChatGPTにないものって何でしょう?
おそらく、それが人間の心とか意識だと思います。
AGIというのは、それを探そうとしているとも言えます。

今のAIは大規模言語モデルLLMです。
OPEN AIのサム・アルトマンもAGIを目指しているといいますけど、まだAIGはできていないと言っています。
ただ、世間では、数年以内、早ければ今年中にAGIができるんじゃないかと期待されています。

今回紹介する論文は、LLMがAGIになるのに何が必要か、その課題や方法についてまとめたものです。
僕は、20年以上前から、コンピュータで心や意識を作る研究をしています。
その視点からみても、うまくまとめられていると思います。
ただ、根本的な問題の解決までは示されていません。

科学は客観的に証明可能なものを研究対象としていますよね。
ところが、今、考えないといけないのは、心や意識といった主観です。
これは、科学が避けてきたものです。
今までの科学のやり方じゃ、どうしても限界があるんですよ。

じゃぁ、今のAIがやっているのはどういうことでしょう?
たとえば、AIにはベンチマークテストっていうのがあります。
具体的には数学の証明問題とかです。
テストの点数でAIモデルの優劣を競うわけです。
これで人間の正答率より高ければ、人間を超えたといえるわけです。

でも、数学の問題で高得点をとったからと言って、人間に近づくわけじゃないですよね。
むしろ、人間離れしたAIになってしまいます。

そこで、最近は、人間には簡単に解けて、AIには解けない問題を探しています。
たとえばこんな問題です。

上のパターンから下のパターンを予測する問題です。
左三つが例題です。
これをみたら、どうやら緑で囲まれたところを黄色で埋めているみたいですよね。
そんなに難しくないと思いますけど、この問題、人間の正答率は84%なのに対して、AIだと約30%だそうです。
今のAIのベンチマークって、こんな問題を競っているそうです。
世界中のAI研究者が攻略しようとしているので、おそらく半年もすれば、人間の正答率を上回ると思いますよ。

でも、それで、人間らしくなったといえるんでしょうか?
それも、なんかちょっとちがいますよね。

ドラえもんみたいな人間らしいAIを目指すなら、ベンチマークテストから根本的に見直さないといけないと思うんですよ。
じゃぁ、どんなベンチマークテストをしたら人間らしくなるんでしょう?

そのために、たとえば、小学校のクラスでどんな子が人気か考えてみましょ。
勉強が一番できる子でしょうか?
そんなことないですよね。

クラスの人気者って、勉強はできなくても、冗談とかいってみんなを笑わせてくれる子とかです。
たまに失敗して、先生に怒られたりもするけど、どこか憎めないやつです。

まさに、ドラえもんですよね。
そんなベンチマークテストを考えるんです。
たとえば、AIが同じ小学校のクラスメートになるんですよ。
それで、どの子が好きかアンケートを取るんです。
それで、AIが一番人気になれば、それがAGIです。

ただ、これで高得点を取るのはかなり難しいですよ。
失敗しない完璧な人間を目指したら、たぶん、人間を超えるとおもいます。
でも、それじゃダメなんです。

宿題を忘れたり、遅刻したりもします。
でも、言い訳が面白くて、つい、許してしまうとかです。
そんなAIを作らないといけないんです。
でも、笑いとかボケって、AIが一番苦手なとこです。

冗談って、常識から外れたことを言わないといけません。
かといって、適当なこと言ってたら、全然面白くありません。
笑えない冗談もありますし、そういった感覚をもっているのが人間です。

こう考えたら、かなり難しいでしょ。
でも、これはやってみる価値はあると思いますよ。
たぶん、「なんで、そんなこと言ううやろ」っておかしなこと、いっぱい言うと思います。
そこで、「なんでか?」って追求することで、「人間とは何か?」「心とは何か?」って本質に近づいてくると思うんですよ。
これがAGIを目指す正しいやり方だと思います。

ただ、これは僕の提案です。
それじゃぁ、最新のAGI研究は、何を目指しているんでしょう?
これが、今回のテーマです。
最新論文から読み解く。
今のAIに決定的に欠けているもの
それでは始めましょう!

今回紹介する論文では、今のAIにできてないものをいくつか紹介しています。
その中でも、一番重要なのが記号接地問題です。

記号接地問題は、最近だと、認知心理学者の今井むつみ先生の『言語の本質』がベストセラーになって有名となりました。
この本は、第372回でも紹介しましたので、よかったらそちらも見てください。

記号接地問題は、シンボルグラウンディング問題ともいわれて、AIは言葉の意味を理解できないという指摘です。
1990年に認知学者のスティーブン・ハルナッドによって提唱されたものです。

AIが認知科学の問題に本格的に取り組むっていうのは、これは画期的なことなんですよ。
AIって、関連分野はかなり広いんですけど、AI研究の範囲で完結していることが多いんですよ。
AIの最新研究では、AIが人間を超えたとか超えてないとかってしきりに言っていますけど、心理学者とか言語学者がそれを認めることはまずありません。
AI研究者がいう人間を超えたっていうのは、あくまでも、人間に解けない数学の問題を解けたとか、画像認識の正答率で人間を超えたとかいった話です。
そんなのは、人間の能力のほんの一部で、人間に簡単にできてAIにできないことはいっぱいあります。
その中で一番有名なのが言葉の意味理解です。

AIが人間に勝てたのは、最近までチェスぐらいで、それ以外はパッとした成果がありませんでした。
それがディープラーニングの登場で、まず、画像認識で人間を超えて、囲碁や将棋でも人間に勝てるようになってきました。
それが10年くらい前です。
そして、2022年11月にChatGPTが登場しました。
そこから、一気に、AIが人間に近づいてきたんです。
考えてみたら、ChatGPTの登場から、まだ、3年もたっていないんですよね。
これだけ話題になったので、AIだけにとどまらなくなって、AIは本当に人間と同等の知能や知性があるのかって、最近になって本格的な議論になってきたわけです。
30年前から認知科学から指摘されてきた問題にようやくAIが追いついたとも言えます。

それじゃぁ、記号接地問題とは何でしょう?
言葉って一種の記号ですよね。
言葉は、現実世界にあるものに名前をつけたわけです。
リンゴとか机とかです。
僕らはリンゴを食べたり、机で勉強したり経験することで、リンゴや机の意味を理解しています。
これが言葉の意味を理解するということです。
逆に言えば、現実世界を経験して初めて言葉の意味が理解できるというわけです。
このことを指して、言葉が世界に接地しているといいます。
これが記号接地です。

それじゃぁ、大規模言語モデルは何をしているでしょう?
それは、大量の文書から、ある単語の次に来る単語の確率を学習しています。
たとえば「日本の首都は」とくれば、次に「東京」と来る確率が高いと学習して「東京」と答えるわけです。
さて、じゃぁ、ChatGPTは首都とか東京の意味を理解しているといえるでしょうか?
言えないですよね。

じゃぁ、AIは言葉の意味が理解できないのでしょうか?
AIにも言葉の意味を理解させる方法があります。
その一つが単語ベクトルです。
単語をベクトルで表現することで、
「王様」-「男」+「女」=「女王」
って式で言葉を扱えます。
これ、まさに言葉の意味を扱っていますよね。

そのほか、言葉の意味は、AIでは古くから意味ネットワークで表現していました。

意味ネットワークだと、イヌや人間は哺乳類の一種で、哺乳類は頭と足があるとかを表現できます。

ただ、単語ベクトルも意味ネットワークも、どちらも言葉の関係性を定義したものです。
つまり、言葉を言葉で定義しているので、言葉が現実世界に接地していません。
つまり、記号接地問題は解決していません。

ところが、今のAIは、画像認識で人間を超えています。
カメラで現実世界を撮影して、リンゴとか机って認識できます。
それに「リンゴ」とか「机」って名前を付ければどうでしょう?
現実世界と記号とが結びつきましたよね。
つまり、記号接地問題が解決したわけです。
そして、意味ネットワークを使えば「リンゴはどんな味がしますか?」って質問に「甘いです」って答えることができます。

さらにですよ。
手に持ったリンゴから手を離したらどうなりますか?
リンゴは下に落ちますよね。
リンゴが落ちることを僕らは予測できますよね。
このことを指して、僕らは「落ちる」の意味を理解しているといえるわけです。
ただ、これも、物理シミュレーターを使えば予測できますよね。
つまり、コンピュータも「落ちる」の意味を理解しているわけです。
この場合の「落ちる」の意味は、テキストデータを学習したわけじゃないですよね。
それは、万有引力の法則を使って導き出しています。
つまり、世界に働く根本的な原理を理解して予測しているわけです。
これが本当に意味を理解しているということです。
今のAI技術、コンピュータ技術を使えば、記号接地問題も解決して、言葉の意味も理解できるんですよ。
これがこの論文に書いてあるLLMからAGIへのアプローチです。

ただ、これはリンゴとか物体の話です。
問題は人間です。
人間の行動を予測できないといけません。

これはこの論文で取り上げられている絵ですけど、AやBがAIロボットです。
事故現場なので、自発的に行動して救助活動できるロボットを目指すわけです。
これが目指すべきAGIです。

そのためには、状況を素早く把握して、適切な行動がとれないといけません。
今のAIはこれが難しいのです。
何が難しいかというと社会的行動です。
人は、社会の中で適切な行動をとれます。
これが人間にできて、AIにできないことです。
ここが、LLMからAGIを生み出すとき、最大の課題となっています。
これが、この論文の主張です。

ただ、僕は20年以上、この研究をしてきました。
そして、すでに、この問題も解決しています。
最後にその話をします。

さっき、物理シミュレーターの話をしましたよね。
物理シミュレーターを使って、「落ちる」の意味を理解しました。
その方法は、万有引力の法則をコンピュータでシミュレーションすることです。
これを分解すると、まず、意味を理解できるとは、動きを予測できると言い換えられます。
そして、動きの予測に使うのが万有引力の法則です。
これが物体を動かす根本原理です。

さて、今、解決しようとしているのは人の行動です。
人も、何らかの根本原理に基づいて行動しているはずです。
それがわかれば、人の社会的行動を予測できます。
つまり、人の行動を理解できるAGIとなるわけです。

僕の考えでは、人間を突き動かす根本原理は本能です。
これは、簡単にいえば不快を避けて快を求めるということです。
ただし、これは人間だけでなく、あらゆる生物が持っている本能です。
人間の場合、もう一つ別の視点を導入する必要があります。
それは、他人もこの原理で動いているといことを理解する機能です。
わかりやすく言えば、他人を思いやるとか共感するとかです。

これをしたら、相手はよろこぶだろうなぁと思うとか、これをしたら相手はいやがるだろうなぁと感じる能力のことです。
そして、相手が喜ぶことをすることが「善」です。
逆に、相手が困ることをすることが「悪」です。
また、「善」の行いをしてくれた人に対して感じるのが「感謝」です。
「ありがとう」って言葉です。

ねぇ、こうやって、単純な行動原理から人間社会が説明できましたよね。
これは、物理学の万有引力の法則です。
根本法則がわかれば、あとはシミュレーションすれば予測ができます。
正しく予測ができること、これが意味を理解してるということでしたよね。
今のAIでは難しいとされていた社会的行動の理解ができるAIは、こうして生み出すことができます。

そして、この原理は、すでにロボマインドは特許を取得しています。
詳しくは、第533回「世界初、心の特許」をご覧ください。

そして、ここは、まだ、基本原理の部分です。
人間らしさとか個性は、そのうえの応用部分に現れてきます。
それは、世界中のAI研究者が競えば実現できるはずです。
その具体的な方法が、最初に紹介したクラスの人気者になるベンチマークテストです。
これが、LLMからAGIへのアプローチです。



はい、今回はここまでです。
この動画がおもしろかったら、チャンネル登録、高評価お願いしますね。
それから、よかったらこちらの本も読んでください。
それじゃぁ、次回も、おっ楽しみに!