ロボマインド・プロジェクト、第217弾!
こんにちは、ロボマインドの田方です。
先日、ある大学の日本語学の紹介の動画を見ました。
教授が日本語学とはなにかって説明して、結論として、日本語は難しいって話でした。
一例として、「昨日、おじいさんとご飯を食べた」って文を紹介してました。
これを、日本語を勉強してる留学生に言うと、えらいびっくりしてこう聞かれたそうです。
「えー、おじいさんを食べたんですか?」って。
最初、意味、分からなかったんですけど、よく考えたら、たしかに、そう解釈できます。
つまり、「おじいさんとご飯」の「と」を英語のアンドと解釈したわけです。
「ハンバーグとご飯を食べた」みたいに、「おじいさんアンドご飯を食べた」って勘違いしたわけですね。
たしかに、そういう解釈もできますよね。
これと同じようなことは、機械翻訳でもよくあります。
良く取り上げられるのは、
“He saw a woman in the garden with a telescope.”
って言う文です。
telescopeは望遠鏡です。
この文は、withの解釈のによって、二つの訳し方があります。
一つは、「庭にいる彼女を望遠鏡で見た」って訳です。
もう一つは、「庭にいる、望遠鏡を持ってる彼女を見た」です。
常識で考えたら、「望遠鏡で見た」になりますけど、「望遠鏡を持ってる」も文法的に間違いじゃないです。
だから、機械翻訳は難しいって言うわけです。
言語学って、昔から、こんなことばっかりやってます。
僕に言わしたら、そこは本質じゃないやろって思うんですよ。
言葉は、表面にあらわれた現象で、重要なんは、その奥にある意味ですよね。
でも、言語学って、言葉から、どうしても離れられないみたいなんです。
僕は表面的な言葉から一旦、離れることで、言語の本質に気付くことができたんですよ。
言語から離れるっていうのは、その奥にある本質を再現するってことです。
でも、そんなことできるなら、みんなやってますよね。
じつは、それを実現するには、ある特殊なツールがいるんです。
ぼくは、そのことにいち早く気づいたってわけです。
言語学者は、そのツールを知らないか、知ってても使い方を間違ってるんです。
これが、今回のテーマです。
言語学者じゃ絶対に気付けない、言語の本質
それでは、始めましょう!
まず、簡単な思考実験から始めます。
たとえば、こんな立体パズルがあるとします。
この立体パズル、こんな風に、いろんな形に変形できるんですよ。
さて、この立体パズルが宙に浮いてて、上からライトで照らしたとします。
すると、床には影が映りますよね。
立体パズルは、次々に形を変えていくとします。
すると、影も形がかわりますよね。
さて、人は、この影しか見れないとしましょ。
影から元の立体の形を想像するわけです。
そうすると、どうなるでしょう。
パズルは3次元の立体ですよね。
それに対して、影は2次元です。
影の方が次元が低いわけです。
だから、影を見ただけじゃ、元のパズルの形を完全に再現できないわけです。
そうなると、何が起こると思います。
パズルの形とライトの当て方によったら、違う形のパズルなのに、影の形が全く同じになるってことが起るんですよ。
何が言いたいか、わかってきましたか?
そう、違う意味なのに、全く同じ文になるって話と一緒ってことです。
それじゃぁ、最初の話に戻りましょ。
「おじいさんとご飯を食べた」って文です。
この文を頭でイメージするとしたら、僕が、おじいさんと一緒にご飯を食べてるって光景になりますよね。
このイメージが、立体パズルです。
影の方が、「おじいさんとご飯を食べた」って文です。
つぎに、テーブルの上におじいさんとご飯が乗ってて、おじいさんを食べてる光景を想像してください。
これを文で表すと、どうなります?
「おじいさんとご飯を食べた」ってなりますよね。
さっきと、全く同じ文になりましたよね。
全然違うものをイメージしてるのに、全く同じ文になったわけです。
「望遠鏡で彼女を見た」って英文の場合も同じです。
「望遠鏡で」と、「望遠鏡を持ってる」と、二つの違うイメージがあるわけです。
それを、英文で表すと、どちらも”with a telescope”ってなるわけです。
さて、立体パズルと、その影。
どっちが本質でしょう。
そりゃ、立体パズルの方ですよね。
そんなの、当たり前ですよね。
でも、言語学って、言葉しかみてないんですよ。
つまり、影しか見てないってことです。
たまたま、同じ形の影をみつけては、言葉は難しいとかって、言ってるんですよ。
でも、影は、ライトを当てた時にたまたま浮かび上がるだけです。
ライトの当て方で、変わるものです。
でも、本質は、変わりません。
じゃぁ、言語学のなかで、普遍的な物を探そうとしてる人はいないんでしょうか?
それが、いるんです。
言語学の中に、普遍文法ってあるんですよ。
言語に関わらず、普遍的な文法が存在するって考えです。
普遍文法を提唱したのはノーム・チョムスキーです。
20世紀で最も偉大な言語学者といわれてます。
僕がこの研究を始めたころ、鍵はきっとここにあるって思って、チョムスキーの普遍文法とか生成文法を勉強したことがあるんです。
生成文法って、ムチャクチャ難しいんで、雰囲気だけ、簡単に、説明しときます。
たとえば、”This is a pen”って英文があるとします。
これを、こんな風に、分解して、構造を分析していくんです。
チョムスキーは、どんな言語でも、共通の構造や文法があるはずと思ったわけです。
その共通の文法を見つけ出そうとしたわけです。
もし、それがみつかれば、凄い発見ですよね。
それが、結果的にどうなったかっていうと、今では、チョムスキーの普遍文法とか生成文法を研究してる人って、あんまりいないですよ。
おそらく、そんな文法、存在しないってことのようです。
今、思えば、チョムスキーの普遍文法って、文法っていうだけあって、結局は、言葉の研究です。
つまり、立体パズルの影の方です。
文法っていうのは、いってみれば、影の形とか変形のルールですよね。
チョムスキーが探していたのは、言語に依存しない普遍的な影の形です。
でも、そんなもの存在しないですよね。
だって、普遍的に存在するのは、本質の方ですから。
意味の方です。
言葉をいくらいじくっても、意味がわかるわけじゃないです。
さて、それじゃぁ、言語学って、本当に、表面的な言葉しか見ていないんでしょうか?
言葉の意味を研究してる人はいないんでしょうか?
たしかに、言語学の分野を見ると、言葉そのものを研究するものが多いです。
たとえば、言葉の音声を研究する音声学とか音韻論とか。
それから、文や単語の構造を研究する形態論とか統語論とか。
ただ、意味を研究する意味論ってのもあります。
意味論にもいろいろありますけど、とくに、認知意味論ってのは、人がどのように認知してるかってことに着目して意味を考えようって研究です。
人が頭でイメージしてるものに注目するわけです。
これって、ロボマインドがやってることに、かなり近いんです。
じゃぁ、ロボマインドがやってることって、認知意味論がやったことをなぞってるだけ?ってなりますよね。
ところが、そうじゃないんですよ。
認知意味論は、言語学の一つの分野です。
研究内容は、論文や本に書かれます。
つまり、言葉や図で書かれます。
じつは、ここに、限界があるんですよ。
言葉や図は、今までの譬えでいうと、影の部分です。
本質をそのまま再現することは、どだい無理な話なんですよ。
簡単な例で言えば、3次元世界です。
僕らは、頭で3次元の世界をイメージできますよね。
それを、文と図だけで表現するには限界がありますよね。
立体パズルを、2次元で表現するのと同じです。
しかも、頭の中のイメージは動きます。
回転したり、変形したり。
それを図と文で忠実に再現するなんか、不可能ですよね。
でも、一つだけ、方法があるんです。
それは、コンピュータの3DCGを使う事です。
ようやく、ロボマインドが、今までの言語学と何が違うかって見えてきました。
言語学は、古代ギリシャにまで遡ります。
3000年前から続いてるわけです。
その間、一貫してたのは、図や言葉で研究するってことです。
ここに、研究の制限があったんです。
それが、コンピュータなら、そんな制限はありません。
人が頭でイメージできるものなら、たいていのものは再現できます。
今、この現代、コンピュータが身近に使えるようになりました。
過去3000年の偉大な学者に出来なくて、ロボマインドだからできるのは、これです。
コンピュータをつかって、言語の本質を忠実に再現するってことです。
でも、コンピュータができたのは50年以上前です。
その間、コンピュータを使って言語を解析しようとした人はいっぱいいます。
たとえば、コンピュータで文章を自動生成する最近話題のAI技術にGPT-3があります。
GPT-3は、ディープラーニングを使って大量の文章を学習します。
具体的には、Aという単語が出てきたら、次にBという単語が出てくる確率は何%とかを学習するわけです。
そのデータを使うと、最初に文を与えると、それに続く文を自動で生成できるわけです。
つまり、GPT-3はコンピュータを使ってますけど、学習してるのは、あくまでも言葉です。
つまり、影の方です。
本質じゃありません。
だから、GPT-3が生成する文章は、意味が通らない、おかしな文が多いんです。
その辺りのことは、第174回「GPT-3検証した あご外れた」で見れますので、よかったら見てください。
GPT-3に限らず、コンピュータで言葉を扱う分野を自然言語処理といって、50年以上前から存在します。
でも、せっかくコンピュータを使ってるのに、言葉しか対象にしてないんですよ。
つまり、言葉の本質の部分、人が頭の中でイメージしてるもの、それ自体を再現しようってこと、なぜか、誰もやってこなかったんですよ。
そして、それをやってるのが、ロボマインド・プロジェクトです。
さっきは、3次元世界って例で説明しましたけど、これは、ほんの一例です。
重要なのは、人が、認識してるのと同じような世界を構築することです。
それを、僕はそれを仮想世界と呼んでます。
そして、仮想世界の中に、人が頭で認識するのと同じ形で、モデルとして生成するわけです。
コンピュータで作ったモデルなので、データを持たせたり、動かすこともできます。
例えば人のモデルなら、名前や年齢ってデータを持たせたり、歩くとか食べるって動作を持たせることができます。
人が歩くと、その人のいる場所が移動しますよね。
これって、3次元の仮想世界の中で、その人モデルの位置が移動することですよね。
これが歩くの意味です。
人が頭でイメージすること、その物です。
そのイメージを言葉で表現すると「人が歩く」って文になるわけです。
でも、言葉で書かれた文をいくら分析しても、歩いてるイメージなんか生まれませんよね。
言葉から意味は理解できないってことです。
順番が逆なんです。
先に、歩いてるイメージを作らないといけないんです。
それを、言葉に変換するわけです。
「おじいさんとご飯を食べた」の意味は、同じテーブルについて、おじいさんと一緒にご飯を食べてるイメージです。
そんな3DCGをコンピュータで再現するわけです。
僕とおじいさんの3Dモデルが、食べるって動作をしてるシーンです。
そのシーンを、言葉に変換したら、たまたま「おじいさんとご飯を食べた」って、文になったわけです。
もし、それをきいた留学生が勘違いしたら、訂正すればいいだけです。
同じシーンを、別の文で言い換えるわけです。
「おじいさんと一緒にご飯を食べた」とかです。
こんなこと、普通にありますよね。
これって、日本語に問題があるわけじゃないですよね。
元になった、頭の中のイメージを使って、言い換えるなんて、誰でもやってることです。
問題は、元となるイメージを見ようとしない言語学者の方です。
まぁ、言語学って、3000年以上、言葉しかみてこなかったので仕方ないですけどね。
でも、現代は、そんなことないです。
コンピュータがありますから。
今まで不可能だった、頭の中のイメージを、そのまま再現できるんですから。
だから、いつまでも、言葉ばかり執着する必要ないんです。
言語学も、自然言語処理も、いつまでも、言葉だけに執着するのは止めましょう。
せっかく、何でも表現できるコンピュータって万能ツールがあるのに、言葉しか分析しないなんて、もったいなさ過ぎます。
紙とペンしかなかった時代のやり方に、いつまでもとらわれるのは、もう、終わりにしませんか?
はい、今回紹介したロボマインド・プロジェクトの基礎となる理論は、こちらの本で解説してますので、よかったら読んでください。
今回の動画がおもしろかったらチャンネル登録、高評価お願いしますね。
それでは、次回も、おっ楽しみに!