重要なのは、言葉じゃなくて、頭の中で思い描いてる中身なんですよ。
この中身を、コンピュータで再現しないと、会話できるAIなんて、絶対に出来ないんですよ。
ロボマインド・プロジェクト、第13弾
こんにちは、ロボマインドの田方です。
今日は、前回の続きです。
会話の目的、それは感情です。
会話から、感情さえ取り出せれば、雑談や日常会話ができるって話でしたよね。
たとえば、学校から帰ってきた太郎君がお母さんに、こう言ったとします。
「今日ね、学校の給食でね、プリンが出たんだよ」
太郎君が頭で思って、お母さんに話したことを図に表すとこうなります。
【図1】
「認知した世界」というのは、太郎君が頭の中で描いている光景です。
この場合、「学校の給食でプリンがでた」という光景です。
そして、その時発生した感情が、「プリンが食べれて嬉しい!」となるわけです。
嬉しかった太郎君は、このことをお母さんに話そうと思って、学校から帰ったら、さっそくお母さんに伝えるわけです。
「今日ね、学校の給食でね、プリンが出たんだよ」って。
これは、太郎君が頭の中で思い描いていていることを、言葉にしたわけですよね。
頭で思い描いているものを認知世界と呼ぶことにします。
言葉で表す世界を言語空間と呼ぶことにします。
頭の中の認知世界を、言語空間に投影したものが言葉となるわけです。
これが、最も基本的な考えです。
この図、ものすごく重要なので、覚えておいてください。
さて、「これを伝えたい」っていう、言いたい一番の中身は、プリンが出て「嬉しい」って感情ですよね。
つまり、認知世界は、感情を中心に組み立てられるわけです。
ただ、単に見た光景を伝えるだけじゃないんです。
「教室には、机と椅子と黒板がありました」
とか、今日見たものを全部、お母さんに話したいわけじゃないんです。
発生した感情を説明するのに必要な、最小限のことで、認知世界を組み立てるんです。
だから、それを言語空間に投影した言葉の中にも、必ず、感情が含まれているはずなんですよ。
直接、「嬉しい」と言わない場合でも、その裏には、「嬉しい」って感情があるはずなんです。
そして、聞き手は、それを汲み取って、コミュニケーションが成立するわけなんです。
次は、お母さんの頭の中です。【図2】
「学校の給食でプリンが出たんだよ」って、言葉を聞いたお母さんは、頭のなかで、給食でプリンがでてる光景を組み立てるわけです。
これがお母さんの認知世界です。
言葉を認知世界に逆変換してるわけですね。
そして、組み立てた世界の中をみると、プリンがあります。
プリンは、太郎の大好物だってことを思い出すんです。
そうか、この子はプリンが出て喜んでるんだなって思うわけです。
だから、「そう、よかったね」って答えるんです。
太郎君は、それを聞いて、自分の嬉しい気持ちが、お母さんに伝わったってわかって、満足するんです。
こうやって、言葉をやり取りして、自分の頭の中に発生した感情が、相手に伝わったかを確認しながら会話は進行するのです。
だから、お母さんが、「学校給食が始まったのは明治22年です」とか答えたら、全然、言いたいことが伝わってないってなるんです。
「そういうことじゃないよ」って、太郎君は思うわけです。
これじゃぁ、会話にならないわけです。
この動画を見てる人は、AIの専門家より、一般の人の方が多いと思います。
この話をすると、一般の人からは、当たり前のことを言ってるだけじゃない?って言われることがあります。
たしかに、その通りなんです。
僕が言ってるのは、当たり前のことなんです。
でも、AI業界じゃ、これが当たり前じゃないんです。
【図1】
AIが扱ってるのって、この図でいえば言語空間だけなんです。
グーグルのBERTが何をやってるかというと、「学校」の次に「給食」っていう単語が出る確率は何%とか、そんなことを大量の文書を解析して計算してるだけなんです。
この図を見れば、そんなことしても、何の役にも立たないって、すぐにわかりますよね。
一番重要なのは、プリンが出て嬉しいって「感情」なんです。
何百万って文章を解析して、どの単語の次に、どの単語が出るかわかっても、何の解決にもならないんです。
そんなことしても、一番重要な、「嬉しい」って感情は、絶対に出てこないんです。
人は、まず、頭の中に、これを伝えたいって思いが生まれて、それを言葉にして伝えるわけです。
重用なのは、表面に現れた言葉じゃなくて、頭の中で思い描いてる中身なんですよ。
頭の中に思い描いてる中身を、コンピュータで再現しようってアプローチを取らないと、人と会話できるAIなんて、絶対に出来ないんですよ。
それでは、言葉と感情の関係について、もう少し続けます。
太郎君は、誕生日に友達から、欲しかったおもちゃをプレゼントしてもらったとします。
太郎君は、「やったぁ!」って喜びますよね。
嬉しいって感情が発生しました。
では、太郎君は、その友達に、何て言うでしょう?
「ありがとう!」って言いますよね。
「ありがとう」は感謝を表す言葉です。
感情と言ってもいいのですが、感情とはちょっと違います。
感情は、その人だけで完結するもので、嬉しいとか、悲しいとかです。
「感謝」っていうのは、相手が存在して成立するものです。
「感情」も「感謝」も、心の動きのことなので、僕は、これを「心理パターン」と呼んでいます。
人間の行動は、心理パターンで決まります。
嬉しいことがあると、笑顔になったり、「やったぁ!」と飛び跳ねて喜びます。
悲しいことがあると、泣いたり、落ち込んで、何もやる気がなくなったりします。
相手からプレゼントをもらったり、親切にされると、「ありがとう」と感謝します。
相手から、いじわるされると、相手に対して「怒り」が発生します。
人間の活動の原動力は、全て、心理パターンと言えます。
人の言動の裏には、「心理パターン」が隠されていて、心理パターンに基づいて活動していうるというわけです。
心理パターンには、今あげた以外に、恐怖や、嫉妬、恥ずかしいや、尊敬、それから善悪、こういったものがあると考えられます。
多分数十個ぐらいあると思います。
自然言語処理では、知識や常識を集めてるって話をしましたよね。
100万個あつめて、まだたりないと気づいて、1億個を目指してるって話をしましたが、それに比べれば、心理パターンは格段に少ないです。
人の話を理解するとは、数十個の心理パターンのどれに対応するのかって計算に言い換えられると言えます。
ここで、言語の起源についてお話したいと思います。
人類学では、人が言葉を話すようになった理由として、直立二足歩行が原因って説があります。
人類は、直立二足歩行することで、背筋が伸び、頭がまっすぐにることで、のどの構造が変化したそうです。
食べ物を食べるときと、息をするときと、同じ喉を通ることになったんです。
だから、食べ物を食べるとき、食べ物が気管に入らないように、のどを制御する必要がでてきたんです。
その結果、喉を高精度に制御できるようになったらしいんです。
高精度に制御できるようになった喉を使って、人間は、複雑な言葉を話せるようになったという説なんです。
この説、ちょっと考えたらおかしいってわかりますよね。
だって、口で話せなくても、手話で話してる人はいますし。
重用なのは、喉の構造とかじゃなくて、話したいって思いが頭の中にあるってことです。
その頭の中の思いを表現するのに、たまたま、喉を使ったってわけです。
喉がつかえなかったら、手を使って表現するわけです。
喉が進化したから話すようになったんじゃなくて、頭の中が進化したから、話すようになったんです。
脳が、複雑な心理パターンを生み出すようになったから、それを表現するために、必然的に言葉を話せるようになったと考えれば、全て納得がいきます。
人間でなくても、犬も、ワンワン吠えたりしますが、人間のように複雑な言葉を話しません。
食べ物をくれって吠えたり、ここは俺の縄張りだ、出ていけって吠えたり。
犬の頭の中にある心理パターンは、そのぐらいなので、吠え方の違いで十分事足りるから、それ以上、言語が発達しないわけです。
これが、感謝って心理パターンを持っていたら、相手に対して、「ありがとう」って言わないといけないです。
「お返し」って心理パターンがあれば、相手の誕生日に、お返しのプレゼントを贈らないといけないです。じゅう
さらに、何を贈るか、悩んだりもするわけです。
そして、この状況を人に説明しようとすると、とんでもなく複雑な表現が必要になるわけです。
とても、ワンワンだけじゃ、表現できません。
そこで、生まれたのが言語というわけです。
その表現の仕方に、声を使ったのが話し言葉です。
文字で書いたのが書き言葉です。
手で表現すれば、手話となるわけです。
表面に表れた文字とか、単語とかは重要じゃないんです。
何を伝えよとしたか、頭の中に思い描いた中身が重要なんです。
次回は、頭の中で、どのように思い描いてるかについて、もう少し掘り下げて考えていきます。
それでは、次回もお楽しみに!