第273回 ディープラーニングでは、なぜ、意識が生れないのか。


ロボマインド・プロジェクト、第273弾!
こんにちは、ロボマインドの田方です。

ディープラーニングは、ニューラルネットワークを使って学習してるので、人間の脳と同じように学習してます。
だから、このまま研究していけば、人間と同じ知性や意識が宿ります。
こんな風に勘違いしてる人が、いまだにいっぱいいます。
たしかに、ニューラルネットワークは、脳の神経細胞をモデルにしています。
でも、人間の認識の仕方と、AIの認識に仕方は全く異なるんです。

たとえば、ディープラーニングが得意なのは画像認識です。
画像の特徴を学習して、写真を分類することができます。
それを使って、グーグルフォトは、写真を自動で分類してくれます。
2015年、黒人女性の写真がゴリラと分類されるって事件が起こりました。

グーグルは謝罪して、これ以降、グーグルフォトはゴリラって分類を止めました。
とにかく、「ゴリラ」って分類さえしなければ、この間違いは起こらないって応急処置でした。
ところが、7年経っても、未だに、ゴリラの分類は復活してないんですよ。
どうも、黒人とゴリラの区別はディープラーニングじゃ無理だって、グーグルは諦めたようです。
つまり、ディープラーニングと人間じゃ、物事の認識の仕方が根本的に違うってことです。

最近では、このディープラーニングの仕組みを悪用して、画像にノイズを混ぜることで、全然違う物に認識させる研究も進んでいます。

(Pandaをパンダ、Gibbonをテナガザルに画像修正)

たとえば、左上はパンダの写真です。
下はテナガザルの写真です。
ディープラーニングが認識するテナガザルの特徴を含んだノイズが真ん中の画像です。
これをパンダの画像に合成させたのが右の画像です。
人がみたら、パンダにしか見えないですよね。
ところが、ディープラーニングは、これを、テナガザルって認識するんですよ。

まぁ、パンダをテナガザルと間違っても、それほど問題ないかもしれないですけど、これが、たとえば道路標識とかだったらどうなります。
AIの無人運転車は、道路標識を間違って認識して、ムチャクチャに走って事故を起こしてしまいます。

僕らが目指してるのは、人間と共存できるAIです。
そのためには、同じ物を見て、同じように認識したり、感じるAIを作らないといけません。
でも、ディープラーニングの延長上には、それはないんです。
これが今回のテーマです。
ディープラーニングでは、なぜ、意識が生れないのか。
それでは、始めましょう!

まずは、ディープラーニングがどうやって画像を認識してるのか、おさらいしましょう。

これは、顔認識するディープラーニングです。
入力画像は、まず、数ピクセル×数ピクセルの小さい画像に分割されます。
この段階では、縦とか斜めといった、単純な図形しか認識できません。
次の段階では、この単純な図形を組み合わせて複雑な図形を認識します。
顔画像の場合だと、目とか鼻、耳といった部品が現れてきてますよね。
さらに、これらの部品を組み合わせて、最終段階では顔を認識できるようになります。
このように、入力画像を目や鼻といった部品に分解し、それらがどれだけ含まれているかで顔の確率が90%といった風に顔認識するわけです。

ディープラーニングがスゴイのは、人間と同じように認識してるってことです。
人間も、目や鼻や口があるから顔って認識しますよね。
大量の画像を学習することで、これを自動でやってるんです。

ただ、人間は、ゴリラと黒人女性を間違えることありません。
どうも、人間は、これだけじゃない、別の認識の仕方もしてるようです。

ここで、AIの始まりから考えてみます。
AIは、人工知能というだけあって、人間の知能を人工的に作り出そうとするものです。
今の第三次AIブームの中心は、ニューラルネットワークを使った機械学習です。
1980年代に起こった第二次AIブームの中心は、記号主義とかルールベースと言われています。
これは、人間と同じような推論をさせようとするものです。
推論の元になるのは、ものごとの意味とか概念です。

概念というのは、「リンゴは果物の一種」といった親子関係のことです。
植物の子概念が果物で、その子にリンゴとかバナナがあるって関係です。
そんな風に概念の親子関係でツリー状に管理します。

これと同じように、Has-aツリーというのもあります。
それは、人間は、2本の脚と、2本の腕と、一つの頭を持ってるとかって何が何を持ってるって関係で管理するものです。
頭は一つの顔を持っていて、顔は、二つの目と一つの鼻と一つの口を持っているとかってなります。

気付きましたか?
このhas-aツリー、さっきのディープラーニングと同じですよね。
ディープラーニングの顔認識でも、顔は、目と鼻と口からなるって理解してましたよね。
人間の意味理解の内、Has-aツリーの部分は、ディープラーニングで実現できてるんですよ。
ということは、ディープラーニングで出来てないのは、もう一つの認識の仕方、概念となりそうです。
もう少し考えてみます。

Has-aツリーは、大量の写真を学習すればできるわけです。
写真はカメラで撮れます。
つまり、Has-aツリーは客観的に観察可能な部分と言えそうです。
目で見てわかるものです。
でも、概念っていうのは、目で見てわかるってものじゃないですよね。

たとえば、リンゴやバナナは果物概念に属します。
でも、形は、全然、違うじゃないですか。
これ、画像を学習するディープラーニングじゃ、概念を獲得するのは無理なんですよ。
じゃぁ、人は、どうやって概念を理解してるんでしょう。

まず、概念は、観察とか、客観的に認識できるタイプのものじゃありません。
心の中で処理してるものです。
つまり、主観での処理となります。

どうも、これはディープラーニングの限界というより、科学の限界と言えそうです。
ただ、だからと言ってコンピュータで実現できないわけではありません。
じつは、コンピュータでは、概念を表現する方法がすでにあるんです。
それは、何かと言うと、オブジェクト指向言語です。

オブジェクト指向言語というのは、人間の思考をそのままプログラムで記述できるプログラム言語です。
オブジェクトは、属性を表すプロパティと、動きを表すメソッドを持っています。
例えば、リンゴオブジェクトの色プロパティは赤で、形プロパティは丸いです。
人間オブジェクトは、名前プロパティや誕生日プロパティを持っています。
それから、歩くメソッドや、食べるメソッドを持っています。
ここまでは、今まで何度も説明してきましたよね。

オブジェクト指向言語には、もう一つ、重要な特徴があります。
それは、継承です。
継承ってのは、親子関係のことです。
つまり、概念です。

オブジェクトはクラスから作られるので、クラスを使って説明します。

リンゴクラスは、果物クラスを継承します。
これは、リンゴクラスは果物クラスの子概念とも言えます。
継承するとは、親クラスの要素を全て持つという事です。
果物クラスが、「木になる果実」とか、「甘い」とかってプロパティを持っているとしましょ。
そしたら、この子概念のリンゴもバナナも、木になる果実で、甘いってプロパティを持っているってことです。
「これはキウイって果物よ」って、子供がお母さんに教えてもらったとしましょう。
そのとき、その子は、「これは、木になっていて、食べたら甘いんだろうな」って想像しますよね。
これが概念を理解してるってことです。
または、抽象化能力があるといってもいいと思います。

たぶん、人間は、ものごとを理解するとき、二つの方法で理解するんですよ。
一つは、パーツに分解するって理解です。
顔は目と鼻と口を持ってるとかです。
これは、Has-aツリーで捉える方法ですよね。

もう一つが、抽象化して理解することです。
これは、複数の同じようなものを見た時、その共通項を取り出して理解する能力です。
リンゴとバナナは果物だって教えられたら、その特徴として、「甘い」とか、「食べ物」とか、「植物」とか、「木になる果実」とかって、共通する要素を抽出するんですよ。
そして、それらをまとめて「果物」って名前を付けるんです。
それが抽象化能力です。

これが、できれば、人間と同じように物事を理解できるわけです。
どうです?
ディープラーニングで出来なかったことが、オブジェクト指向言語を使えば、出来そうですいよね。
そして、それをやってるのが、マインド・エンジンです。
じつは、今、マインド・エンジンのオントロジーを設計しているところです。
その話は、前々回、第271回で説明しました。

第271回で語ったのは、マインド・エンジンでは、オブジェクト中心にオントロジーを組み立てるって話でした。

そこで、オントロジーのトップを、オブジェクト、プロパティ、メソッドの三つにしたって話をしました。

今回は、一番重要なオブジェクトのツリーの話です。
ここを、概念の親子関係で構築するわけです。
このような概念ツリーは、第二次AIブームのころからありました。
ただ、それは、単に、言葉を親子関係で結びつけるだけでした。
言葉っていうのは、単なる文字の並びです。
テキストデータです。
でも、それじゃぁ、意味がないんです。

なんで意味がないかって言うと、言葉が、世界に結びついてないんです。
世界ってのは、僕らが、生きて、感じてる、この世界のことです。
リンゴを見たってのは、リンゴ、その物を見てますよね。
「り・ん・ご」って、文字を見てるわけじゃないですよね。
言葉と言葉をいくら結びつけても、りんごそのものにつながらないんですよ。
言葉だけでオントロジーを作っても意味がないってことです。

それに対して、マインド・エンジンでは、単語じゃなくて、オブジェクトを作るんです。
オブジェクトは、3Dモデルで表現されます。
だから、現実世界のリンゴをカメラで捉えて、画像解析することで、リンゴの3Dオブジェクトに変換されます。
ここで、現実世界のリンゴとマインド・エンジンの中のリンゴが結びつくわけです。
現実とオントロジーが結びつくのはここです。

リンゴオブジェクトは赤いとか丸いってプロパティを持っています。
そして、そのオブジェクトは概念の親子関係を持ってるわけです。
リンゴの親は果物です。
果物は、甘いプロパティとか、木になる果実ってプロパティを持ってるわけです。
だから、リンゴを見ただけで、食べたら甘いんだろうなぁ、元々、木になってたんだろうなぁって想像できるわけです。

ねぇ、こうやれば、人間と同じような概念関係も持てるんですよ。
グーグルがあきらめたゴリラと黒人を区別することも、これでできます。
画像認識から、ゴリラと黒人の二つの可能性があったとします。
ゴリラは動物概念に属していて、黒人は人間概念に属しています。
人間なら、いろんな髪型をしてたり、眼鏡をかけてたり、服を着てたり、アクセサリを付けてたりといろんなプロパティを持っています。

今回の場合、眼鏡やアクセサリはありませんけど、髪の毛がありますよね。
長い髪から、人間の女性と判断できます。

つまり、見た目でいくつかの可能性があると分かれば、それらの上位概念を取り出し、その上位概念の持つプロパティから判断するわけです。
人間がやってるのと同じことをするわけです。

ディープラーニングは、画像に含まれるデータだけで学習するから、偏った判断をしてしまうんでしょう。
ちょっとした違いだけで、ゴリラと判断したり、テナガザルと判断するんでしょう。
それは、人間の認識とかけ離れています。

オブジェクト指向言語といった、人間の思考を模倣したモデルと、ディープラーニングを組み合わせることで、人間と同じように世界を認識できる人工知能ができるわけです。
これが、ディープラーニングの限界を超える新たなAIと言えます。
そして、それを実際につくってるのがロボマインドのマインド・エンジンです。

はい、今回の動画が面白かったらチャンネル登録、高評価お願いしますね。
それでは、次回も、おっ楽しみに!