ディープラーニング
って、
そういうことか!
ディープラーニンって、人間の認識のほんの一部なんですよ。
その事を分かってないから、AI業界は、あんなバカなことをしでかしてるんですよ。
ロボマインド・プロジェクト、第7弾
こんにちは、ロボマインドの田方です。
さて、前回取り上げた本
「AI vs 教科書が読めない子供たち」
この本では、著者の新井紀子教授が、AIに絶対できないこととして、言葉の意味理解って、断言してましたよね。
いくらAIが進歩したとしても、読解力で人間を超えることは絶対ないって。
ところが、それを覆す結果が出たと、昨年、話題になりました。
この記事とか、みてください。
「東ロボくん」の生みの親「新井紀子」教授の間違いが明らかになった日。
人間は人工知能に読解力でも負けつつある
こんな記事を、あちこちで見るようになりました。
新井教授の主張が、あっさりとひっくり返ったみたいです。
それをやったのが、どうも、グーグルのBERTって技術らしいです。
AIと人間との競争って、同じテストを解かせて、どっちの点数がいいかって競争するんです。
画像認識とか文字認識とかが有名ですね。
これで、人間の点数よりAIが上回ったら、AIが人間を超えたって言われるんです。
それで、言葉の意味理解も、同じようなテストがあって、それでグーグルのBERTって技術が人間に勝ったらしいんですよ。
このグーグルのBERT、今はやりのAI,ディープラーニングを使ったらしいんですよ。
そこで、今回は、このBERTの話をしようと思ったのですが、さきに、ディープラーニングの話をした方がいいと思ったので、今日は、ディープラーニングについて、分かりやすく説明することにします。
さて、ディープラーニングが、一番得意なのは画像認識です。
そこで、顔認識を例に、説明しようと思います。
たとえば、ここに1枚の写真があるとします。
そこに顔が写っているかどうか判断するって話です。
ディープラーニングでは、何段階かで処理を進めていきます。
各段階で、特徴パターンていうのを使って解析します。
これが、最初の段階で使う特徴パターンです。
特徴パターンていうのは、一つが、数10ピクセルの×数10ピクセルの小さい画像です。これが、何百枚と用意されています。
最初は、こんな風な、単純なパターンばかりです。
そして、一つの特徴パターンを選んで、対象とする写真の左上に置いて、パターンが一致するか判断するわけです。
ぴったり合ったら100%、半分ぐらい合ったら50%、全然合わなければ0%って感じで。
そして、次は、1ピクセルずつ右にずらして、同じように判断します。
こうして、1ピクセルずつずらして、画像全体をスキャンするわけです。
1枚目のパターンが終わったら、2枚目のパターンで同じことを繰り返します。
こうやって、全部のパターンでスキャンした後、たとえば、100%に近い特徴パターンを残して、0%に近い特徴パターンは削除するようにして圧縮します。
すると、1/4ぐらいの大きさとなります。
これで、一段階目の処理が終わります。
この処理を繰り返すわけですが、段階が進むと、単純なパターンが消えて、複雑なパターンとなっていきます。
たとえば、人の顔の場合、中間段階では、こんな感じの特徴パターンとなります。
このぐらいになると、人の顔のパーツらしきものが見えてきますよね。
眼とか鼻らしき特徴パターンがありますよね。
こんな特徴パターンで、対象画像をスキャンして、ここは鼻だ、とか、これは右目だとか、探していくわけです。
そして、最終段階の特徴パターンは、こんな感じです。
ちょっと、怖いですよね。
夜中に、カーテン、ばって空けて、窓にこんなのが写ってたら
ギャーってなりますよね。
まぁ、それは良いとして、これは、ディープラーニングの顔の特徴パターンです。
人間の顔の全体像になってますよね。
そして、最後に、これらの顔パターンが何%以上あれば、顔って認識できたってなるわけです。
これが、ディープラーニングの仕組みです。
ここでは、分かりやすくするために、顔の特徴パターンだけ集めましたが、実際は、動物や植物や、ありとあらゆる特徴パターンを使って、写真に何が写ってるのか判断するわけです。
さて、ディープラーニングは、特徴パターンを使って顔認識します。
どの特徴パターンをどのくらいの割合で組み合わせれば、顔と認識できるかって判断します。
これを、出来るだけ正確に判断できるように、特徴パターンを調整したり、どのくらいの割合かっていう重み付けを学習させるわけです。
具体的には、画像にノイズを載せて、わざと分かりにくくしたり、画像の一部を隠して見えなくして、それでも、ちゃんと判別できるように学習させます。
たとえば、右目の部分を真っ黒にマスクして、それでも顔と認識できるように学習するわけです。
さて、ここからが僕の得意な話になります。
僕は、細かいことより、全体を見るほうが得意です。
木を見るより、森を見るほうが得意ってわけです。
だから、ディープラーニングの話でも、TensorFlowがどうとか、SoftMax関数は何をしてるかとか、そういった枝葉の話は、他の方にお任せします。
それより、僕は森全体からみた木の話をしたいと思います。
この場合、木というのがディープラーニングです。
とすると、森全体は、何を指すかというと、人間の認知です。
人は、どうやって物を認識したり、把握してるのか。
それとディープラーニングの違いは何かって話をしようと思います。
ディープラーニングで一番重要なのは何でしょう?
それは、特徴パターンです。
ディープラーニングの最初の段階は、何かわからない原始的なパターンで判別しています。
これって、人間の脳の中にも、同じようなものがあるんです。
脳の中で、見た映像を最初に処理する1次視覚野ってとこには、たとえば縞模様にだけ反応するニューロンがあるんです。
これは、人間だけじゃなくて、猿やネコにもあります。
ディープラーニングは、中間段階では、目や鼻を認識しますよね。
そして、最終段階では、顔全体の形を認識しますよね。
人間が顔を認識するときも、目や鼻、全体の形で顔で判断しますよね。
これも、ディープラーニングは、人間と同じことをやってます。
それじゃ、なぜ、ディープラーニングは、そうなっているのでしょう?
それは、顔は、目や鼻のパーツで構成されているからです。
顔画像の中にも、目の画像や、鼻の画像が含まれるのです。
顔の画像を分解していけば、目のパターンや、鼻のパターンが見つかるわけです。
つまり、画像の中に、その特徴が含まれれば、それは、ディープラーニングで抽出できるってことなんです。
重要なので、もう一度、言います。
ディープラーニンで解析できるのは、あくまでも、画像そのものの中に含まれる情報だけです。
つまり、鼻は臭いをかぐものだとか、目は物を見るものだとか、そういったことは、ディープラーニンで、いくら解析しても分かるわけではありません。
何を当たり前のことを言ってるんだと思っていると思いますが、この、当たり前のことが分かってない人がいっぱいいるんです。
詳しくは、次回、お話しますが、今は、顔認識の話に絞ります。
たしかに、人間の脳でも、最初の段階は、原始的なパターンから判断して、おそらく、目や鼻のパターンへと認識するでしょう。
でも、その過程で、目の中の黒いところ、黒目でものを見ているのだとか、鼻の黒いところは穴になっているとかわかりますよね。
そもそも、この画像は、写真で撮った2次元だけど、本来は、3次元の立体の顔だってことも知っていますよね。
でも、ディープラーニングでいくら学習させても、もとは3次元だってこと、絶対に理解しないんですよ。
なぜでしょう?
それは、3次元という世界を知らないからです。
3次元の世界の中で生きていないから、3次元世界とは、どういうものか理解できないんです。
ディープラーニングが理解できるのは、点の集まりで画像ができてるってことです。
点の集まりで表現できるのは、何らかのパターンです。
複雑な画像は、何かのパターンを組み合わせれば表現できるってことです。
ディープラーニングが生きている世界は、それだけの世界です。
眼で見える世界は、僕らが生きている世界の一側面です。
その、目で見える世界は、部分を組み合わせて全体が組み立てられます。
僕たちが生きてる世界と、ディープラーニングが生きている世界で、たまたま共通してるのが、画像認識の世界というわけです。
人間とディープラーニングが共通にもっているもの。
それは、部分を組み立てて全体できてるって世界。
人間が認識する膨大な処理の中の、ほんの一部が、ディープラーニングがやってることと一致したってわけです。
このことを忘れないでください。
巨大な森の中の、ほんの一本の木、それがディープラーニングです。
AIブームの中、ディープラーニングを使えば、人間のような知能が生まれるって思っている人がいますが、それは、大きな勘違いです。
ただ、現在、AI業界の中で、ディープラーニングや機械学習以外の手法が語られることは、まず、ありません。
99%以上が機械学習の話です。
でも、AIで語られていないことの方が、実は、多いんです。
今のAIで語られていない中に、本当に重要なことがあるんです。
今日は、ここまでにしておきます。
次回は、このことを理解していないばかりに、どんなバカなことをしでかしているのかって話です。
あっ、それが、冒頭にお話ししたグーグルのBERTの話ですけどね。
それじゃ、次回もお楽しみに!