第229回 オブジェクト意味理論


ロボマインド・プロジェクト、第229弾!
こんにちは、ロボマインドの田方です。

今回のテーマは、これです。
はい、ロボマインド、二つ目の特許です。
一つ目の特許は、第154回「世界初!心の特許」で紹介したものです。
今回のは、じつは、前回のより、はるかに重要なんです。
いわゆる基本特許というやつです。

基本特許っていうのは、その分野の核心となる技術特許のことを言います。
その製品を作るには、その特許を使わざるを得ない特許のことです。
ただ、それが、本当に基本特許かどうかは、後からしか判断できないんですよ。
その技術が広く普及して、初めて、それが基本特許だってなるんですよ。
だから、今回取得した特許、本当に基本特許かどうかは、現段階では言えません。
ただ、僕は、次の時代になくてはならない特許になると確信しています。
なぜ、そう言えるのか。
それを、これから説明いたします。
それでは、始めましょう!

まず、今回の特許の分野は、AIです。
その中でも自然言語処理になります。
自然言語っていうのは、人が話す言葉のことです。

まずは、今までのAIからおさらいします。
AIって、二つに分かれます。
一つは、ルールベース、もう一つは機械学習です。

ルールベースってのは、「AならばB」ってルールを教えるAIです。
熱があって、咳が出るなら風邪ですって診断する病気診断システムとかです。

機械学習ってのは、データから学習するタイプのAIです。
大量の写真からネコを認識できるようになったディープラーニングとかが有名ですよね。

ルールベースと機械学習、何が一番違うかというと、人が教えるか、自分で学習するかです。
ルールベースは、人がルールを教えて、機械学習は、AI自ら、学習します。

これは自然言語処理でも同じです。
たとえば文章の空欄穴埋め問題を解くAIを作るとします。
「ボールが○○に落ちた」って文の○○に何が入るかって問題があって、選択肢に、「上」か「下」があるとします。
機械学習なら、大量の文章を学習させて、「ボール」や「落ちる」って単語の近くにある単語の数を数えて、一番数が多い単語として「下」を選ぶって感じです。
ルールベースなら、「落ちる」の組み合わせとして取りうる単語として「下」ってルールを用意しておいて、「下」を選ぶとかです。
これがAIの考え方です。

さて、みなさん、これ、どう思います?
なんか、おかしいって思いません?
だって、どっちも言葉の並びだけで答えようとしてるんですよ。
つまり、上とか下って言葉の意味を理解してないんですよ。
でも、言葉で一番重要なのは、意味でしょ。
誰も意味なんか考えてないんですよ。
これ、おかしいでしょ。

じゃぁ、何で、誰も意味を考えないか、かわかります?
答えは簡単です。
それは、意味とは何かって、誰も答えれないからです。
ここが、自然言語処理の最大の問題なんです。

そこで、ぼくは、今まで、誰も定義できなかった「言葉の意味」っていうのを、明確に定義したんです。
それが、今回の特許です。
だから、基本特許って言えるんです。

それじゃぁ、さっそく、その中身を説明していきます。
基本的な考え方は、第217回「言語学者じゃ絶対に気付けない言語の本質」で話しました。
そこで取り上げたのは、「昨日、おじいさんとご飯を食べた」って文です。
ある大学教授が、こう言ったら、それを聞いた留学生がびっくりしたそうです。
「えっ、おじいさんを食べたの!」って。

はじめ、意味が分からなかったんですけど、よく考えたら分かりました。
つまり、「おじいさんとご飯を食べた」の意味を「おじいさん&ご飯」を食べたって解釈したわけです。
だから日本語は難しいって話です。

さて、この話に対して、僕は、言葉と意味の関係は、物体と影の関係と同じじゃないかって言ったんですよ。
たとえば、こんな立体パズルがあったとします。

このパズルは、いろいろ変形できます。
たとえば、こんなのとか、

こんなのとか、

さて、この立体パズルに上から光を当てたとします。
すると、下に影ができますよね。
パズルを変形すると、影の形もかわりますよね。
パズルの形と影の形は対応するわけです。

でも、パズルが違う形でも、たまたま、影が同じ形になることってありますよね。
これと一緒ってわけです。
さっきのおじいさんの話。

文が指し示す内容、意味が立体パズルなんです。
そうすると、その影が文になりますよね。
違う意味内容なのに、表現によっては、偶然、同じ文になることもあるってことです。

「おじいさんと同じテーブルについて、一緒にご飯を食べた」と、「ご飯と一緒に、おじいさんを、むしゃむしゃ食べた」じゃ、全然、意味が違いますよね。
でも、それを文で表すと、どちらも「おじいさんとご飯を食べた」ってなるわけです。

「だから、日本語は難しい」で終わらせたらダメなんですよ。
何でこんなことになるのか、根本を考えないといけないんですよ。

問題の根本がどこか、もう、わかりましたよね。
それは、言葉しか見てないってとこです。

言葉は本質じゃないですよね。
言葉は、本質の影です。
本質を見れば、全然違う内容だってすぐに分かります。
文や言葉をいくら分析しても意味ありません。
AIのルールベースも、機械学習も、どっちも言葉しか見てません。
言葉をいくらいじくっても、何も解決しません。
目指すべきは、本質を再現することなんです。
つまり、言葉や文から、意味内容を再現しないといけないんです。

でも、そんなこと言っても、どうやって意味を再現するんでしょう?
立体パズルなら、分かりますよ。
でも、文の意味って、パズルみたいに具体的じゃないでしょ。

それを、今回、具体的に実現したんです。
だって、具体的な物でないと、特許なんて取れませんから。
それじゃぁ、説明しますよ。

人は、世界をどうやって認識するか。
それは、左脳にある世界認識システムでおこなっています。
これは、第220回からの「120%脳を解放した女」シリーズで語っています。
左脳に世界認識システムっていうのがあって、人は、あらゆる物事を、この世界認識システムを介して理解します。
それほど、根本的なシステムがあるんです。
人が、この世に生まれた時、世界認識システムが最初にすることは、世界を図と地で分けることです。
地と言うのは後ろにある背景です。図というのは前にある対象のことです。
人は、対象を背景から切り出して認識するわけです。

人は、世界の中に、自分がいるって感じますよね。
背景としての世界と、その世界とは別に自分がいるって感じますよね。
それは、世界認識システムを介して世界を認識してるからです。
だから、この世界認識システムが壊れると、自分と世界との区別がなくなるんです。
自分の体が、世界に溶け出していくんですよ。
そして、そんなことが起こったのが、「120%脳を解放した女」で語られた女性です。
興味がある方は、ぜひ見てください。

さて、立体パズルに話を戻します。
立体パズルが対象、意味内容とすれば、背景は、三次元空間となります。

対象は、背景の空間に配置され、その中で動いたり移動したりするわけです。
この対象のことを、オブジェクトと呼ぶことにします。
オブジェクトっていうのは、コンピュータプログラムのオブジェクト指向言語のオブジェクトのことです。
オブジェクトは、属性を表すプロパティと動作を表すメソッドを持ちます。
三次元空間をコンピュータで再現するとすると、3DCGになりますよね。
オブジェクトは3Dオブジェクトとなります。
3Dオブジェクトのプロパティは、位置とか色、形になります。
メソッドは、移動とか回転ってなります。

それでは、文の意味理解を考えて行きます。
たとえば「ボールがある」って文があるとします。
ボールの定義として、たとえば、直径10cmで重さ100gの球体としておきます。
そのボールオブジェクトを3DCGの空間に生成します。
これが、「ボールがある」の意味となるんです。

もう少し行きますよ。
三次元空間に重力を設定すれば、上とか下って意味が定義できますよね。
「落ちる」の意味は、重力に従って物体が下に移動することです。
「落ちる」とか「下」って言葉の意味は、こうやってコンピュータで三次元空間を再現して定義できるんです。

分かってきましたか。
意味は、背景となる世界とオブジェクトで作り上げるんです。
それが本質の方です。
作り出したオブジェクトを、言葉に変換するんです。
「ボールがある」とか「ボールが落ちるとか」です。
これが文です。
影の方です。

ただ、違う意味でも同じ文になることがあります。
それが、「おじいさんとご飯を食べる」です。
でも、これをオブジェクトで表現したら、違うって、すぐにわかります。
人間オブジェクトは、食べるメソッドを持ってます。
おじいさんオブジェクトと自分オブジェクトがいるわけです。
2人が一緒にご飯を食べてる状況を、オブジェクトで再現するわけです。
そうやってオブジェクトで再現することが、意味を理解するってことです。
正しく意味を理解さえしてれば、勘違いしても、すぐに修正して、別の文で言い直すことができるわけです。

さて、今までの例は三次元空間の話でした。
でも、3次元以外の言葉も同じように定義できます。
たとえば、物を所有したり、売ったり買ったりする所有権世界です。
これは、背景として所有権空間とか所有権世界を定義します。
オブジェクトとして物とか所有者を定義します。
所有者のメソッドとして、「売る」とか「あげる」があるわけです。
所有者オブジェクトが、売ったり、あげたりすると、相手に、所有物が移動するわけです。
これが、「売る」とか「あげる」の意味です。
こうやって、背景となる世界と、そこに配置されるオブジェクト、それからプロパティ、メソッドで言葉の意味が定義できるんです。

どうです?
あらゆる言葉の意味が、こうやって、具体的に定義できるってのがわかるでしょ。
これが、今回取った特許の中身です。
かなり根本的なとこで特許を取ったことがわかりますよね。
だから、基本特許なんです。

たまに言われるのが、僕のやってることは、ルールを教えてるからルールベースだって。
AIをやってる人は、機械学習とルールベースって二つの分け方しかしないので、つい、そう思ってしまうようです。
でも、今の話を聞いたら、分かりましたよね。
今回の特許、AIとか、そんな狭い範囲でくくれる話じゃないんですよ。
人が、どうやって世界を認識するかって、もう、ホント、いっち番、根本に関わるところの話なんです。
逆に言えば、そのぐらい、根本から考えないと、言葉の意味って解決できないってことです。

少し前、アマゾンとかグーグルのスマートスピーカーが流行りましたよね。
それから、iPhoneには、会話アプリのSiriが搭載されてます。
でも、スマートスピーカーやSiriと、何時間も会話するなんて、絶対にないですよね。
それは、意味を理解してないからです。
アップルもグーグルもアマゾンも、機械学習しかしていません。
でも、機械学習じゃ、絶対に意味を理解できるようにならないんですよ。
だって、学習してるのは、言葉だけですから。
影をいくら学習しても、本質の意味には辿り着けないんです。

意味を理解できるようになったら、何時間でも会話ができるAIが生まれます。
自分のことを、一番分かってくれるのは、AIだって時代が来ます。
そんな、温かい心をもったAIを作るのに必要な技術が、今回の特許となるわけです。

僕は、日本の得意な、ロボットとか、アニメやゲームのキャラクターに、心を持たせたいと思っています。
日本が、今から、アップルやグーグルに勝てるとしたら、ここしかないと思っています。
よかったら、ロボマインドを応援してください。

それから、チャンネル登録、高評価もお願いしますね。
それじゃぁ、次回も、おっ楽しみに!