ロボマインド・プロジェクト、第453弾!
こんにちは、ロボマインドの田方です。
ChatGPTは、大量の文書を学習することで次の単語を予測して文を生成できます。
このやり方で、文法的にも問題ない自然な会話ができるようになりました。
ただ、テキストデータを学習しただけなので現実世界を経験してるわけではありません。
つまり言葉と現実世界とが結びついてないので、意味を理解してるとはいえません。
これを記号接地問題と言います。
ところが最近のAIは、画像や動画を学習しています。
これによって、文章を入力するだけで動画まで生成できるようになっています。
たとえば、これはOpenAIのsoraが自動生成したものです。
これは、「ネオンが灯る夜の東京をスタイリッシュな女性が歩く」とsoraに指示して生成した動画です。
さらに先日、OpenAIは、GPTを搭載したロボットを公開しました。
ついに、ChatGPTが現実世界に進出してきました。
ここまで来れば、言葉と現実世界が結びついたといってもいいです。
つまり、記号接地問題が解決したといってもいいと思います。
少なくとも、単語と、現実世界の物とは結びついてるといってもいいと思います。
ただ、学習の仕方が人とは違います。
大規模言語モデルは、何億とか何兆って大量の動画とテキストの組み合わせを学習しています。
でも、人間は、生活のなかで経験する数個の文を手掛かりに、文の構造とか文法とかを自然に身に付けます。
ChatGPTを使ってたらわかりますけど、平気でウソをついたり、人間じゃ間違いようのないような間違い方をしたりします。
人とAIじゃ、文の解釈の違いが全く違うからです。
AIは、単語レベルの記号接地問題は解決しつつあります。
これを第一次記号接地問題と呼ぶことにします。
おそらく、次に問題となるのは文レベルの理解です。
人と違う方法で文を解釈することで、今後、ロボットが思いもしない行動を取ることが予想されます。
これを第二次記号接地問題と呼ぶことにします。
こういった問題を防ぐには、人とおなじように世界を解釈して、文を理解できないといけません。
これが今回のテーマです。
今後、AIロボットに必ず起こる問題
第二次記号接地問題とは?
それでは始めましょう!
第448回で、単語は理解できるけど、文の意味を理解できない失語症のAさんを紹介しました。
Aさんの前にいろんなものを置いて「これは何ですか?」って質問すると、「それは鉛筆です」「それは櫛です」って正しく答えられます。
単語と現実世界の物とは結びついています。
第一次記号接地問題は解決しているようです。
つぎに、「鉛筆で櫛に触ってください」っていうと、とたんに戸惑うんですよ。
悩みながら右手に鉛筆を持って、左手に櫛をもって持ち替えたりするんです。
「それは違います」っていうと、今度は、鉛筆を櫛の横に並べたりします。
鉛筆と櫛を使った何かをしないといけないってことは分かってるみたいですけど、何をどうしたらいいかが理解できないみたいです。
そこで、今度は「鉛筆に触ってください」っていうと、これはできます。
「櫛に触ってください」っていうと、これもできます。
もう一度「鉛筆で櫛に触ってください」っていうと、やっぱりできません。
「櫛にさわる」といった簡単な文は理解できるようです。
でも、「鉛筆で櫛にさわる」となるとできません。
おそらく、これは今まで経験したことなんでしょう。
でも、文の構造とか文法を理解してると、今まで経験したことがない文でも意味を理解できるはずですよね。
Aさんは、脳のどこかの機能が損傷したことで、それができなくなったようです。
そこで、Aさんと同じような失語症を起こすAIシステムを考えてみたいと思います。
まず、前提とするのは、僕が提唱する心のモデルです。
簡単に説明すると、脳には「ある系」と「反応系」の二種類の処理経路があります。
「反応系」は外界に無意識で反応する処理経路で、あらゆる生物が持っています。
それに対して「ある系」は、「ものがある」と認識する処理経路です。
このとき、「ものがある」と認識するのが意識です。
意識は、ある程度進化した生物が持つ機能で、僕は哺乳類以降が意識を持つと考えています。
それから、「ある系」のもう一つの特徴は、仮想世界です。
仮想世界というのは、現実世界を仮想的に再現した世界です。
意識はこの仮想世界を介して現実世界を認識します。
これを意識の仮想世界仮説といって、僕が提唱してる意識仮説です。
仮想世界はコンピュータなら、たとえば3DCGで実現できます。
カメラで撮影した櫛を3Dの櫛オブジェクトとして再現します。
3Dオブジェクトなので、色や形、名前、位置などの情報を持っています。
だから、「これは何ですか?」と聞かれたら、そのオブジェクトの名前を取り出して「櫛です」と答えることができるわけです。
さて、次は「櫛に触れてください」の意味理解です。
まず、「~してください」といった文は、何らかの行動を要請する文です。
要請する行動が「櫛に触れる」です。
文は主語と動詞があります。
この場合、自分に行動を要請されてるので、主語は自分です。
動詞は「触れる」です。
「触れる」って動詞は触れる対象を目的語としてもちます。
この場合、対象は「櫛」です。
これをロボットで動作させるとすると、ロボットの指先を櫛に接触させればいいですよね。
これが最終状態です。
つまり、動詞は、主語と、最終状態で定義できそうです。
そして、その状況は3DCGの仮想世界で再現できますよね。
つまり、仮想世界で再現できることが、意味を理解したと言えそうです。
ただし、仮想世界は現在の状況を再現しています。
そこで、自由に作れる仮想世界を新たに作ります。
それを想像仮想世界と呼ぶことにします。
そして、想像仮想世界で最終状況を再現します。
さらに、現在の状況も想像仮想世界に再現します。
現在の状況と最終状況の違いは手の位置ですよね。
ということは、最終状態にするには、手を動かせばいいわけです。
現在の手の位置と目標とする手の位置が決まれば、ロボットのアームをどのように動かせばいいかは簡単に計算できますよね。
次は、これをプログラムで書いてみます。
プログラムは関数を使って書きます。
関数というのは、計算したり行動したりといった処理のまとまりです。
まずは、「触れる」関数を作ります。
関数はパラメータというデータを受け取ることができます。
「触れる」関数は、触れる対象をパラメータとして渡されます。
すると、受け取ったパレメータの位置情報を取り出し、その位置に指先を移動させるプログラムを生成します。
無意識は、このプログラムを受け取って、最終的にアームのモーターを制御してロボットアームを動かします。
この無意識の処理は、人間の脳だと小脳の働きに該当します。
小脳は、筋肉を制御して体を動かします。
意識は、「櫛に触れる」って考えますけど、どの筋肉をどのくらい動かすかまでは考えませんよね。
これが、意識と無意識の役割分担です。
意識の役割は、文の意味を解釈して、無意識が実行できるレベルのプログラムに変換することです。
これは高レベルの処理です。
無意識が行うのは、モーターの制御といった低レベルの処理です。
さて、こっからが本題です。
次は、「鉛筆で櫛に触る」です。
ここで出てくるのが「鉛筆で」の「で」です。
「で」は格助詞です。
格助詞の「で」にはいろいろ意味があって、この場合は「手段」です。
その他、「駅でラーメンを食べた」の場合の格助詞「で」は、場所を表します。
ここでオブジェクト指向言語について説明します。
オブジェクト指向言語というのはプログラムの種類の一つです。
特徴は、データをオブジェクトっていう「もの」のまとまりで扱うことです。
これは人間の認識の仕方と同じです。
オブジェクトは色とか形ってプロパティと、動きを示すメソッドを持っています。
たとえばリンゴオブジェクトなら、赤いとか丸いってプロパティと「落ちる」ってメソッドを持っています。
リンゴを見たとき、「赤さ」って色だけとか、「落ちる」って動きだけを認識することはないですよね。
必ず、「リンゴが赤い」とか「リンゴが落ちる」ってリンゴを中心に認識しますよね。
これが人は、「もの中心」つまり、オブジェクト指向で考えるってことです。
そして、それをそのままプログラムにしたのがオブジェクト指向プログラムです。
僕は、人間と同じように世界を認識して、考えたり会話ができるAIを開発しています。
そのAIが世界を認識するときに使うのがオブジェクト指向プログラムです。
ここで、オブジェクト指向言語のもう一つの特徴である継承とポリフォーフィズムについて説明します。
継承というのは、概念関係のことです。
例えば、人間も犬もどちらも動物概念に属します。
これを、人間も犬も動物クラスを継承するって言います。
クラスというのは、ここではオブジェクトと同じと考えていいです。
継承の特徴は、親クラスが持つ要素を受け継ぐことです。
たとえば動物クラスが足を持つとか、歩くってメソッドを持つなら、それを継承したクラスも足と歩くを持ちます。
ポリフォーフィズムというのは、継承したとき、継承したクラスに応じてメソッドの動作が変わることです。
たとえば、動物は歩くので、動物クラスを継承した人間も犬も歩きますよね。
でも、人間は二本足で歩きますけど、犬は4本足で歩きます。
同じ「歩く」でも歩き方が異なります。
これがポリフォーフィズムです。
でも、違うと知ってても、「人が歩く」「犬が歩く」って同じ「歩く」って言葉で表現しますよね。
これが、人がオブジェクト指向で考えてるって証拠です。
ここで、単純な文「学校に行く」を考えます。
「行く」という動詞は目的地をパラメータとして受け取ります。
たとえば、目的地を「学校」としてプログラムを生成して実行すると、想像仮想世界の中で、自分の位置が学校になります。
これが最終状態です。
さて、ここで、「学校に行く」という文を「バスで学校に行く」と書き換えます。
「バスで」を追加したわけです。
格助詞「で」は手段を表します。
手段というのは、「~を使って」と同じなので、「バスを使って学校に行く」と同じです。
ここでポリフォーフィズムがでてきます。
「使う」の具体的な動作は継承した単語によって異なります。
たとえば、乗り物の場合なら、乗り物に乗って移動するという動作になります。
「バスを使う」の具体的な動作は、「バスに乗って、バスが目的地まで移動して、目的地でバスを降りる」ってなります。
動きは仮想世界で再現できます。
だから、このプログラムを想像仮想世界で再現すると、自分がバスに乗って、バスで学校まで移動して、学校でバスを降りるとなります。
すると、最終状態は自分が学校にいる状態となります。
「バスで学校に行く」の自然言語の文の意味を解釈できたわけです。
それでは、つぎは、「鉛筆で櫛に触れる」を実行してみましょう。
最終状態は「櫛に触れる」です。
これは、想像仮想世界で対象に指先が振れる状態です。
ここに、「鉛筆で」が加わりました。
「鉛筆で」は、「鉛筆を使って」に言い換えられます。
「使う」ってメソッドを道具に当てはめると、「手でもって操作する」となります。
だから、「鉛筆で」は、「手で鉛筆を持って」何かをするわけです。
何かというのは、最終状態である「櫛に触れる」です。
つまり、鉛筆の先が櫛に接触することが最終状態となります。
これをプログラムで表現して実行すると、仮想世界で鉛筆を手に持って、鉛筆を動かして、鉛筆の先端を櫛に接触させるってなりますよね。
自然言語の文「鉛筆で櫛に触れる」を、仮想世界で実行できるプログラムに変換できました。
これが文の意味を理解するということです。
後は、無意識にこのプログラムを渡すだけです。
そうしたら、無意識は体を制御して現実世界で行動します。
これで、「鉛筆で櫛に触れる」って言葉の意味を理解して、正しく行動できました。
さて、Aさんは、これができなかったんですよね。
でも、「櫛に触れる」はできました。
これができると言うことは、オブジェクト指向で世界を認識して、行動するという基本的な仕組みは問題なさそうです。
ただ、「鉛筆で」を組み込むとうまくできません。
これには、別の動作を組み込んで、目的の動作を達成するといった処理が必要です。
そこで使うのが、ポリフォーフィズムです。
ということは、ポリフォーフィズムで文を変換するとこで不具合が起こっていたようです。
おそらく、その機能は脳の言語野、おそらく意味を理解するウェルニッケ野にあると思われます。
今回は、オブジェクト指向のポリフォーフィズムを使うことで、格助詞「で」を実現しましたよね。
これって、実は、画期的なことなんです。
つまりね、文法って、客観的に定義されてるように思えますよね。
格助詞「で」には「手段」の意味があるとか。
でも、よく考えたら、手段の意味は定義してないんですよ。
人間だから手段っていわれたらわかるってことだと思いますけど、そこは人の主観に頼ってるんですよ。
主観に頼ってたんじゃ、コンピュータで実現できませんよね。
それが、今回、主観に一切頼らず、最終的にコンピュータが実行するプログラムまで落とし込みました。
完全に客観的に定義したといえるんですよ。
なぜ、それができたかと言うと、文を意味理解して実行するまで、脳の処理に対応させたからです。
脳の処理をそのままコンピュータに落とし込んだわけです。
逆に言えば、文法とか意味とか分けて分析するやり方には限界があるといえます。
世界をどう認識して、どう言葉に対応させるか、脳全体の処理として捉えてないといけないんです。
脳を見ずに、文だけを見て、文を細かく分解して分析するやり方が言語学です。
逆に、その反対が今のAIです。
今のAIは、テキストデータとか動画とか、分解することなく大量のデータを一気に学習させます。
その結果、入力データと出力データだけみれば、一見、人と同じような結果を返すことができます。
ただ、処理の仕方が人間と全く異なるので、ときに、人が思ってもみなかった行動を取ることがあります。
これが、第451回、452回で取り上げたAIアライメント問題です。
今回の話は、その根本問題を解決する具体的方法にもなっています。
その詳しい内容は、先日、汎用人工知能研究会でも発表しました。
その時の論文は、この動画の概要欄にリンクを貼っておきますので、興味がある方は読んでください。
はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、意識の仮想世界仮説に関しては、こちらの本で分かりやすく解説してますので、よかったらこちらも読んでください。
それじゃぁ、次回も、おっ楽しみに!