第8回 Googleの革新的な自然言語処理技術、BERT! 〜でも、それ、何の役に立つの?


やぁ、BERT!
君って、何の役にも立たないよね♡

僕らが本当に望んでるなら、マンガとか、映画に描かれますよね。
読解力テストで満点を取れるAIのマンガ、そんなの、読みたいですか?

ロボマインド・プロジェクト、第8弾
こんにちは、ロボマインドの田方です。

さて、前回は、ディープラーニンによる画像認識について説明しました。
今回は、ディープラーニンを使った自然言語処理について説明します。

自然言語っていうのは、人が使う言葉のことです。
日本語や英語のことです。
それをコンピュータで処理することを自然言語処理っていいます。

さて、コンピュータは、言葉の意味が理解できないってのが定説です。
「東ロボくん」の新井紀子教授も、読解力でAIが人間を超えることは絶対にないって、断言してましたよね。

で、それを覆す結果を出したのが、グーグルのBERTって技術です。
今回は、その話です。

AIが、読解力で人間を超えたって、どういうことでしょう?
AIと人間の戦いは、同じ問題を解いて、どちらのスコアが高いかで決められます。
たとえば、画像認識の場合、写真に何が写っているかを、AIと人間が競うわけです。
画像認識で、AIが人間を超えたのが2015年のことです。
その技術が、ディープラーニングです。

読解力のテストは、たとえば、文章の穴埋め問題だとか、文章に続く文を選ぶ問題とかです。
この読解力のテストで、AIが、ついに人間を超えたんです。
それが、2018年のことです。

さて、それでは、言葉をディープラーニングでどうやって扱ったのでしょう。
画像認識の場合、特徴パターンを使っていました。
特徴パターンっていうのは、数十ピクセル×数十ピクセルの小さなパターンの画像です。

画像認識は多段階で行われて、最初の段階で使われる特徴パターンは、単純な模様です。
それがだんだん複雑になっていきます。
顔認識の場合だと、中間段階で使われる特徴パターンは、目や鼻などの顔のパーツになっています。
最終段階の特徴パターンは、顔全体のパターンとなります。

さて、自然言語処理では、特徴パターンに当たるのは何でしょう?
それは、単語です。
画像認識の特徴パターンを単語に見立てれば、文章をディープラーニングで解析することができます。
その単語が組み合わさって、次の段階の特徴パターンとなっていきます。

さて、ここで、ディープラーニングの学習方法について説明しておきます。
画像認識では、多数の特徴パターンを用意しておいて、それに重み付けして組み合わせて、対象画像を判定します。
顔認識の場合、特徴パターンとしては、鼻や目や、顔の輪郭の画像があって、それらを重み付けして組み合わせて、顔って認識するわけです。

このとき、どんな画像を特徴パターンとするかとか、重み付けの割合をどうするかを学習しないといけません。
それをどうやってするかというと、たとえば画像の一部をマスクして、マスクした部分を上手く再現できるように特徴パターンや重み付けを調整するわけです。
マスクするって、たとえば顔画像の目の部分を黒く塗りつぶすとかです。
そして、ディープラーニングを使って、上手く元の目の形が再現されればOKってわけです。

それでは、読解力テストに戻ります。
読解力テストって、文章の穴埋め問題でしたよね。
これって、画像認識の学習で使うマスクと同じなんです。

文章のなかの単語を隠して、もとの単語が上手く再現できるように学習させればいいわけなんです。
何百万、何千万って文章を学習させるわけです。
これをやったのが、グーグルのBERTです。

たとえば、
「昔々、ある所におじいさんと○○がいました」
なんて文章があったとして、〇〇にはいるのは「おばあさんだ」って答えれるわけです。
大量の文章を学習することで、人間より正確に答えれるようになったってわけです。

このことを指して、ついに、読解力でAIが人間を超えたってなったんです。

さて、これ、本当に読解力で人間を超えたってことになるんでしょうかねぇ?
本当に、AIが言葉の意味を理解してるんでしょうかねぇ?

この点に突っ込んで言及してる人って、あんまりいないんですよね。
だから、僕は、ここを突っ込んで検証していきたいと思います。

まず、画像認識から考えてみましょう。
大量の顔画像を学習させた結果、鼻や目のパーツを持つと顔と認識できるようになりました。
これは、ある意味、人間と同じ処理をしてるって言えますよね。

これで、写真に何が写っているか答えれるようになりました。
人の顔だとか、犬とか猫とかです。

でも、写真に何が写ってるか分かったからと言って、それって、意味を理解してるって言っていいんでしょうか?

猫の写真に「猫」という記号を割り当てるタスクはできてていると言えます。
でも、猫がニャーって鳴くとか、抱っこした時の感覚とか、そんなことは理解してないですよね。
あくまでも、写真に写ってる画像と、人間が割り当てた単語とのマッチングができるようになったというだけの話です。

だからといって、役に立たないかというと、それは、また、別の話です。
顔認証ができるようになったおかげで、最新のiPhoneなんかは、パスワードが不用になりましたからね。

それでは、BERTはどうでしょう?
何千、何万て文章を学習させた結果、どの単語の近くに、どの単語が来るかってことがわかるようになりました。

文章に空欄があった場合、そこに当てはまる単語を答えれるようになりました。

これ、文の意味を理解してるって言えますかねぇ?

「おじいさん」って単語の近くに、「おばあさん」って単語がありそうだってことは、わかるみたいです。

でも、おじいさんはシワがあるとか、白髪があるとか、そんなことわかってないです。
わかってるのは、「おじいさん」って文字の並びがあったら、その近くに「おばあさん」って文字の並びがある確率は何パーセントだって、それだけです。

それって、なんか、役に立ちますかねぇ。
もちろん、全く、役に立たないってわけじゃないですよ。
たとえば、ニュースをジャンル別に分類するなんてとこに応用されています。
野球とかサッカーって単語が出てきたら、そのニュースはスポーツのニュースだって分類するとかです。
これで、自分の興味のあるニュースだけを配信いてくれるサービスができるわけです。
今のAIが、自然言語処理で役に立つのは、まぁ、せいぜい、その程度ですけどね。

「東ロボくん」の生みの親、新井紀子教授は言いました。
コンピュータでできるのは、論理、確率、統計の3つだけだと。

まさに、BERTでやってるのも、それですよね。
大量の文書から、単語の数を数えて、どの単語の近くに、どの単語が出現するかって確率を延々と計算してるだけです。

これ、文章の意味を理解してるってわけじゃないですし、まして、AIが読解力で人間に勝ったなんて、まったく、見当違いの話なんです。

AIが話題になるときって、たいてい、人間を超えたってニュースのときです。

チェスで人間のチャンピオンに勝ったとか、
人間には絶対勝てないといわれていた囲碁や将棋で、AIがついに、人間に勝ったとか。

そんなニュース聞くと、興奮しますよね。

グーグルのBERTも、まさに、それですよね。
「AIが絶対に人間に勝てないのは、読解力だ」なんて言われてましたから、読解力のテストで人間に勝ったって話が出てくると、つい、興奮してしまいます。

でも、僕らが本当に欲しいのは、読解力テストが解けるとか、囲碁や将棋で人間に勝てるAIじゃないですよね。

僕らが本当に望んでるなら、マンガとか、映画に描かれますよね。
読解力テストで満点を取れるAIなんてマンガ、読みたいですか?

たとえば、
ジャンプの新連載「教えて、BERT!」

主人公が、「ねぇ、BERT,ここに入る言葉、教えてよ!」
とか言うんです。

「地獄ニ落チテシマエ」
とか、答えるんですよ。

「そうか、ありがとうBERT」

こんなマンガ、2週で連載打ち切りですわ。
子どもたちが読みたいマンガって、そんなんじゃないですよね。

ドラえもんとか、鉄腕アトムとか、そんなんですよ。

僕たちが欲しいのは、普通に会話ができるAIなんです。
穴埋め問題が解けるAIが欲しいなんて、だ~れも、思ったことないですよ。

グーグルも、普通に会話できるAI、早く作ったらいいのに、なんで、つくらないんでしょう?

グーグルでも作れないのは、実は、会話ってね、めちゃくちゃ難しいんです。
もう、どっから手をつけていいのは、それすら、誰も分らないんですよ。

あっ、もちろん、僕以外は、ってことですけどね。

それでは、次回は、なぜ、会話が難しいのか、その点をお話したいと思います。

それでは、次回も、お楽しみに!