第7回 世界一わかりやすいディープラーニング入門

ディープラーニング
って、
そういうことか!


ディープラーニンって、人間の認識のほんの一部なんですよ。
その事を分かってないから、AI業界は、あんなバカなことをしでかしてるんですよ。

ロボマインド・プロジェクト、第7弾
こんにちは、ロボマインドの田方です。

さて、前回取り上げた本
「AI vs 教科書が読めない子供たち」
この本では、著者の新井紀子教授が、AIに絶対できないこととして、言葉の意味理解って、断言してましたよね。

いくらAIが進歩したとしても、読解力で人間を超えることは絶対ないって。

ところが、それを覆す結果が出たと、昨年、話題になりました。

この記事とか、みてください。

「東ロボくん」の生みの親「新井紀子」教授の間違いが明らかになった日。
人間は人工知能に読解力でも負けつつある

こんな記事を、あちこちで見るようになりました。
新井教授の主張が、あっさりとひっくり返ったみたいです。

それをやったのが、どうも、グーグルのBERTって技術らしいです。

AIと人間との競争って、同じテストを解かせて、どっちの点数がいいかって競争するんです。
画像認識とか文字認識とかが有名ですね。
これで、人間の点数よりAIが上回ったら、AIが人間を超えたって言われるんです。

それで、言葉の意味理解も、同じようなテストがあって、それでグーグルのBERTって技術が人間に勝ったらしいんですよ。

このグーグルのBERT、今はやりのAI,ディープラーニングを使ったらしいんですよ。

そこで、今回は、このBERTの話をしようと思ったのですが、さきに、ディープラーニングの話をした方がいいと思ったので、今日は、ディープラーニングについて、分かりやすく説明することにします。

さて、ディープラーニングが、一番得意なのは画像認識です。
そこで、顔認識を例に、説明しようと思います。

たとえば、ここに1枚の写真があるとします。
そこに顔が写っているかどうか判断するって話です。

ディープラーニングでは、何段階かで処理を進めていきます。
各段階で、特徴パターンていうのを使って解析します。

これが、最初の段階で使う特徴パターンです。

特徴パターンていうのは、一つが、数10ピクセルの×数10ピクセルの小さい画像です。これが、何百枚と用意されています。
最初は、こんな風な、単純なパターンばかりです。

そして、一つの特徴パターンを選んで、対象とする写真の左上に置いて、パターンが一致するか判断するわけです。
ぴったり合ったら100%、半分ぐらい合ったら50%、全然合わなければ0%って感じで。

そして、次は、1ピクセルずつ右にずらして、同じように判断します。
こうして、1ピクセルずつずらして、画像全体をスキャンするわけです。
1枚目のパターンが終わったら、2枚目のパターンで同じことを繰り返します。

こうやって、全部のパターンでスキャンした後、たとえば、100%に近い特徴パターンを残して、0%に近い特徴パターンは削除するようにして圧縮します。
すると、1/4ぐらいの大きさとなります。
これで、一段階目の処理が終わります。

この処理を繰り返すわけですが、段階が進むと、単純なパターンが消えて、複雑なパターンとなっていきます。
たとえば、人の顔の場合、中間段階では、こんな感じの特徴パターンとなります。

このぐらいになると、人の顔のパーツらしきものが見えてきますよね。
眼とか鼻らしき特徴パターンがありますよね。
こんな特徴パターンで、対象画像をスキャンして、ここは鼻だ、とか、これは右目だとか、探していくわけです。

そして、最終段階の特徴パターンは、こんな感じです。

ちょっと、怖いですよね。
夜中に、カーテン、ばって空けて、窓にこんなのが写ってたら
ギャーってなりますよね。

まぁ、それは良いとして、これは、ディープラーニングの顔の特徴パターンです。
人間の顔の全体像になってますよね。
そして、最後に、これらの顔パターンが何%以上あれば、顔って認識できたってなるわけです。
これが、ディープラーニングの仕組みです。

ここでは、分かりやすくするために、顔の特徴パターンだけ集めましたが、実際は、動物や植物や、ありとあらゆる特徴パターンを使って、写真に何が写ってるのか判断するわけです。

さて、ディープラーニングは、特徴パターンを使って顔認識します。
どの特徴パターンをどのくらいの割合で組み合わせれば、顔と認識できるかって判断します。
これを、出来るだけ正確に判断できるように、特徴パターンを調整したり、どのくらいの割合かっていう重み付けを学習させるわけです。

具体的には、画像にノイズを載せて、わざと分かりにくくしたり、画像の一部を隠して見えなくして、それでも、ちゃんと判別できるように学習させます。
たとえば、右目の部分を真っ黒にマスクして、それでも顔と認識できるように学習するわけです。

さて、ここからが僕の得意な話になります。
僕は、細かいことより、全体を見るほうが得意です。
木を見るより、森を見るほうが得意ってわけです。

だから、ディープラーニングの話でも、TensorFlowがどうとか、SoftMax関数は何をしてるかとか、そういった枝葉の話は、他の方にお任せします。

それより、僕は森全体からみた木の話をしたいと思います。
この場合、木というのがディープラーニングです。
とすると、森全体は、何を指すかというと、人間の認知です。
人は、どうやって物を認識したり、把握してるのか。
それとディープラーニングの違いは何かって話をしようと思います。

ディープラーニングで一番重要なのは何でしょう?
それは、特徴パターンです。

ディープラーニングの最初の段階は、何かわからない原始的なパターンで判別しています。
これって、人間の脳の中にも、同じようなものがあるんです。

脳の中で、見た映像を最初に処理する1次視覚野ってとこには、たとえば縞模様にだけ反応するニューロンがあるんです。
これは、人間だけじゃなくて、猿やネコにもあります。

ディープラーニングは、中間段階では、目や鼻を認識しますよね。
そして、最終段階では、顔全体の形を認識しますよね。

人間が顔を認識するときも、目や鼻、全体の形で顔で判断しますよね。
これも、ディープラーニングは、人間と同じことをやってます。

それじゃ、なぜ、ディープラーニングは、そうなっているのでしょう?
それは、顔は、目や鼻のパーツで構成されているからです。
顔画像の中にも、目の画像や、鼻の画像が含まれるのです。

顔の画像を分解していけば、目のパターンや、鼻のパターンが見つかるわけです。
つまり、画像の中に、その特徴が含まれれば、それは、ディープラーニングで抽出できるってことなんです。

重要なので、もう一度、言います。

ディープラーニンで解析できるのは、あくまでも、画像そのものの中に含まれる情報だけです。

つまり、鼻は臭いをかぐものだとか、目は物を見るものだとか、そういったことは、ディープラーニンで、いくら解析しても分かるわけではありません。

何を当たり前のことを言ってるんだと思っていると思いますが、この、当たり前のことが分かってない人がいっぱいいるんです。

詳しくは、次回、お話しますが、今は、顔認識の話に絞ります。

たしかに、人間の脳でも、最初の段階は、原始的なパターンから判断して、おそらく、目や鼻のパターンへと認識するでしょう。

でも、その過程で、目の中の黒いところ、黒目でものを見ているのだとか、鼻の黒いところは穴になっているとかわかりますよね。
そもそも、この画像は、写真で撮った2次元だけど、本来は、3次元の立体の顔だってことも知っていますよね。

でも、ディープラーニングでいくら学習させても、もとは3次元だってこと、絶対に理解しないんですよ。

なぜでしょう?
それは、3次元という世界を知らないからです。
3次元の世界の中で生きていないから、3次元世界とは、どういうものか理解できないんです。

ディープラーニングが理解できるのは、点の集まりで画像ができてるってことです。
点の集まりで表現できるのは、何らかのパターンです。
複雑な画像は、何かのパターンを組み合わせれば表現できるってことです。
ディープラーニングが生きている世界は、それだけの世界です。

眼で見える世界は、僕らが生きている世界の一側面です。
その、目で見える世界は、部分を組み合わせて全体が組み立てられます。

僕たちが生きてる世界と、ディープラーニングが生きている世界で、たまたま共通してるのが、画像認識の世界というわけです。

人間とディープラーニングが共通にもっているもの。
それは、部分を組み立てて全体できてるって世界。
人間が認識する膨大な処理の中の、ほんの一部が、ディープラーニングがやってることと一致したってわけです。

このことを忘れないでください。
巨大な森の中の、ほんの一本の木、それがディープラーニングです。

AIブームの中、ディープラーニングを使えば、人間のような知能が生まれるって思っている人がいますが、それは、大きな勘違いです。

ただ、現在、AI業界の中で、ディープラーニングや機械学習以外の手法が語られることは、まず、ありません。
99%以上が機械学習の話です。

でも、AIで語られていないことの方が、実は、多いんです。
今のAIで語られていない中に、本当に重要なことがあるんです。

今日は、ここまでにしておきます。
次回は、このことを理解していないばかりに、どんなバカなことをしでかしているのかって話です。

あっ、それが、冒頭にお話ししたグーグルのBERTの話ですけどね。

それじゃ、次回もお楽しみに!