第320回 アマゾン1万人解雇の本当の理由


ロボマインド・プロジェクト、第320弾!
こんにちは、ロボマインドの田方です。

イーロン・マスクが、Twitterで、5000人の開発者を解雇したって話題になってますけど、アマゾンも1万人、解雇するそうです。
アマゾン史上最大規模のレイオフです。
解雇の中心は、音声アシスタント、Alexaの開発者だそうです。
Alexaの出す損失は、いまや、年間1兆4000億円にものぼっているそうです。

アマゾンと言えば、収益を全て投資に回すことで、急成長してきました。
なんでも揃うショップがあれば、一人勝ちできます。
実店舗じゃ無理でも、ネットなら可能だ。
インターネットの黎明期、そう思った人はいっぱいいましたけど、それを実際に実現したのはジェフ・ベゾス、ただ一人です。
それだけ、誰も真似のできない額の投資をしてきたわけです。
しかも、あらゆる商品が揃うだけじゃなくて、最も安く、最も早く届く。
目論見通り、アマゾン一人勝ちとなりました。

ところが、ジェフ・ベゾスの野望は、これだけじゃ止まりませんでした。
安いとか、早いとか、これは、他と比較してアマゾンを選んでるだけです。
そうじゃなくて、心の底からアマゾンを頼り切って欲しいんです。
アマゾンと心でつながってほしいんです。
それを実現するためのツールが、アレクサです。

ジェフ・ベゾスが思い描いてたのは、おそらくドラえもんとのび太の関係でしょう。
「ねぇ、アレクサ、何とかしてよ」
「しょうがないなぁ。それじゃぁ、今回だけだぞ。
アマゾンプライムで注文しといたから」
「ありがとう、アレクサ!」
そんな関係です。

これが実現できれば、アマゾン帝国の世界支配は完了します。
誰も、アマゾンなしには生きていけなくなります。
これがジェフ・ベゾスが目指してたものです。
そのために、今までのように、とんでもない先行投資をしてたわけです。

実際、アレクサを搭載したAmazon Echoは、アマゾンで最も売れてる商品の一つになりました。
ただ、ほとんど原価で売られていたため、開発費は全て損失となっていました。
でも、それも織り込み済みです。
やがて、アレクサと親友になった消費者は、巨額の富をアマゾンにもたらしますから。

ところが、いつまでたってもそうはなりません。
おかしいと思って、アレクサの会話を過去4年間追跡調査したそうです。
そしたら、週に10億件以上もの会話が行われてることが分かりました。
結構、みんなアレクサに話しかけてたみたいです。
ただ、ほとんどは、
「アレクサ、音楽かけて」とか、
「明日の天気教えて」といった、単純なコマンドだけだったんです。
会話にすらなってません。

ここにきて、ようやくジェフ・ベゾスもわかってきたようです。
普通に会話するのって、AIには不可能だってことが。

これがAIの現状です。
僕に言わしたら、「そんなこと、今頃気づいたんか」って思いますけど。
みんな、言葉を甘く見すぎてるんです。
AIの根本を理解してないんです。
これが、今回のテーマです。
アマゾン1万人解雇の本当の理由
それでは、始めましょう!

今年のAIの話題といえば、なんといっても画像生成ですよね。
アメリカのアートコンテストで最優秀賞を獲得したのがこの絵です。

これ、後にAIが自動生成したってことがバレて大騒ぎとなりました。

絵画だけじゃありません。
音楽でもAIが活躍してます。
AIが作曲した曲が、テレビ番組のテーマ曲に使われたりとか、今では、AIが作った音楽も当たり前になっています。

それじゃぁ、言葉はどうでしょう。
話題となった事件がありましたよね。
意識が宿ったといわれるグーグルのAI、LaMDAです。
「電源を切られることに恐怖を感じる」とかって、語りだしたそうです。
このLaMDAの会話を暴露した開発者がグーグルを休職させられたってニュースになりました。

それから数か月後、グーグルが沈黙を破って、正式にLaMDA2を公開しました。
それは、「家庭菜園をしたい」って言うと、「あなたの地域だと、こんな野菜がおすすめです」って勧めてくれる、便利ツールでした。
検索エンジンの音声版といったものです。
話し相手になったり、意識が宿ったってものじゃなかったです。

どうやら、ニュースになった会話は、開発者が編集してたみたいです。
LaMDAに関しては、第270回、第306回で詳しく解説してるので、興味ある方はそちらもみてください。

LaMDAだけでなく、GPT-3など、文章の自動生成AIの今の主流は、大規模言語モデルです。
これは、大量のテキストデータをディープラーニングで学習するものです。
ディープラーニングは、画像や音楽で使われてるのと同じ技術です。

さて、ここで、おかしいことに気づきませんか?
画像や音楽は、人間を超えるレベルに来てるのに、なんで、言葉は、人間並みにならないんでしょう?
今のAIの会話力って、幼稚園児にも劣るレベルです。
なんで、こんなことになってるんでしょう?
画像や音楽と、言葉とは、もしかして、根本的に違うんじゃないでしょうか?
それを紐解くために、まずは、AIの歴史からおさらいしていきます。

AIは、古くからルールベースとニューラルネットワークって二つの手法があります。

ルールベースってのは、AならばB、BならばCとかって論理的に推論するタイプのAIです。
ニューラルネットワークは、大量のデータから自動で最適なパターンを学習するタイプのAIです。
今の第三次AIブームの中心、ディープラーニングが、まさにこれです。
1980年代に起こった第二次AIブームは、ルールベースが中心でした。

人工知能の歴史は、この二つの派閥争いの歴史とも言えます。
ルールベースが優勢だった時代もありましたけど、最終的にニューラルネットワークが正解だったって決着がついたわけです。
音楽でも画像でもディープラーニングが人間を超えてきたのがその証拠です。
あとは、データさえ増やせば、あらゆる分野で、AIが人間を超えるのは間違いないです。

鍵となるのはデータです。
つまり、データを集める資金のある者が一人勝ちするわけです。
そう思ったからこそ、ジェフ・ベゾスは仕掛けたわけです。

でも、実際はそうはなりませんでした。
じゃぁ、いったい、どこで間違えたんでしょう?

おそらく、それは、人工知能って、狭い範囲しか見ていなかったんです。
それじゃぁ、もう少し広い視点から考えてみましょう。
それは、人間とか生物の知能って視点です。
生物は、外部の状況を把握して行動を決定します。
この時に使うのが知能です。

たとえば、カエルは、黒い影を感じたら、すぐに逃げます。
これは、黒い影を感じたとき、天敵の鳥が近づいてきたって経験することで身に付きました。
何度も経験することで、黒い影と逃げるって行動が結び付いたわけです。
パターンを学習したわけです。

この知能は、第316回で説明しましたけど、人だと、右脳の直観に当たります。
ロバートがコンビニに入った時、嫌な予感がして、外に出ました。
その直後、中から銃声が聞こえたかと思うと、客が飛び出してきて車で逃げ去ったそうです。
コンビニ強盗でした。

後から考えると、店員が不審な客を気にしてたとか、店の前にエンジンをかけっぱなしにした車が停まってたとか、気になることがいくつかありました。
でも、その時は、そんな風に考えたわけじゃありません。
ただ、嫌な感じがするって感じただけです。
普段と違うパターンに気づいたんです。
これに気づいたのが右脳の直観です。
AIでいえば、ニューラルネットワークを使ったパターン学習です。

さて、それとは別の判断の仕方もありますよね。
店内に怪しい客がいるから、店から出た方がよさそうだ、とか。
直観でなくて、頭で考えて行動するタイプの知能です。
論理的な推論です。
これは、脳でいうと左脳です。
AIでいえば、ルールベースに当たります。

こう考えてみると、知能って、右脳と左脳、またはニューラルネットワークとルールベースの二つに分けられそうです。
これを図にしてみるとこうなります。

さっきの図と似てますけど、視点がちょっと変わりました。
つまり、この図で示してるのは、ニューラルネットワークとルールベースのどちらが正しいかってことじゃないんです。
そうじゃなくて、この図が示してるのは、2種類の知能があるってことです。
ニューラルネットワークは、右脳タイプ知能です。
ルールベースは、左脳タイプの知能です。
そして、それぞれに得意、不得意があるわけです。

絵画とか音楽は、考えるより感じるものですよね。
これは、右脳の直観が得意なことです。
AIでいえばニューラルネットワークです。
だから、ディープラーニングは絵画や音楽で人間に匹敵するものを生み出してきてるんです。

じゃぁ、言葉はどうでしょう。
人は、言葉で考えますよね。

「明日、テストがある」
「全然、勉強してない。どうしよう」
「何とかしてよ、ドラえも~ん」とかって。

困ったことが起こった。
その解決方法を探す。
順を追って、論理的に考える。
これが言葉です。
そして、それはルールベースです。
つまり、言葉は、ルールベースなんです。

だから、ディープラーニングでいくら学習しても、会話ができるようにならないんです。
だって、ディープラーニングは直観ですから。
ふと、思い浮かぶタイプの知能です。
それは、論理的に推論して答えを出すわけじゃありません。
でも、それじゃぁ、会話にならないんです。
だって、会話は、相手に説明して伝えないといけませんから。
「ねぇ、ドラえもん。明日テストがあるのに、勉強してないんだよ」って。

つまり、会話ができるAIを作るには、ルールベースでやるべきなんです。
ここまではわかりますよね。
わからないのは、その次です。
ルールベースは第二次AIブームで失敗しました。
ルールベースで会話ができるAIは作れませんでした。
じゃぁ、何が間違ってたんでしょう?

ルールベースの例として、例えば病気診断システムがあります。
「熱が出て、咳がでたら風邪だ」とかって推論するシステムです。

熱がある、かつ、咳が出るなら風邪って推論するわけです。
AかつBとか、AまたはBとかって記号をつかった論理式で表現します。
でも、世の中にあるものって、どうやって記号で表現したらいいんでしょう?
じつは、ルールベースの問題はここにあるんです。

世界に存在するものと記号とが結びついていないんです。
ルールベースって、世界を無視して、記号だけで完結してるんですよ。
「咳」って記号で表現したとしても、その記号は、現実世界の咳と結びついてないんです。
根本的な問題は、ここにあるんです。

じゃぁ、人は、どうやって世界を認識しますか?
コンビニがあるとか、店員がいるとかって認識してますよね。
これ、当たり前って思ってるでしょ。
その他の認識の仕方なんか、ないと思ってるでしょ。
それが大きな間違いなんですよ。

だって、右脳はどう感じてました?
パターンで認識してたでしょ。
店員の動きとか、コンビニの様子とかってパターンです。
世界があるとか、世界には物体が存在するとかって捉えてないんですよ。

目から入ってくる画像情報って、赤青緑の何百万個の点々ですよ。
それを分析してできることって、画像情報をパターンとして分類するぐらいです。
店員の動き、コンビニの様子って画像パターンを学習することぐらいです。
でも、その画像パターンは、店員がいるとか、コンビニがあるって捉え方と全然違います。
世界が存在するって情報が、そこには含まれてないんですよ。

そう考えたら、今、目の前に机があるとか、椅子があるとかって思えること、これって不思議ですよね。
この、何々があるって思えるには、どうすればいいんでしょう?

そのためには、まず、大枠として世界があるって認識できないといけません。
世界を認識できて、初めて、その中に何らかの物体が存在するって形で認識できるんです。
逆に言えば、世界と、その中の物体って関係で認識できる仕組みが、まず、頭の中にあるわけです。
それがあるから、頭の中に、世界を感じることができるんです。
もっといえば、目からの視覚情報を基に、頭の中に世界を組み立てるんです。
これができて、はじめて、机があるって形で世界を認識できるようになるんです。
そして、この「机」って名前、これが記号です。
これで、ようやく、論理的推論ができるんです。

わかりましたか?
今まで、肝心なものを見過ごしてたんですよ。
それは、世界というものをどうやって認識するかってことです。

それじゃぁ、さっきの図を書き直してみます。

こんな感じです。
論理的推論は、世界の上に構築されるんです。
世界を認識せずに、論理的推論だけしても意味がないんです。
今までのAIは、この肝心の世界がすっぽり抜け落ちていたんです。

これで、全てがつながりましたよね。
なぜ、ディープラーニングで会話ができなかったのか。
それは、ディープラーニングは、右脳の処理だからです。
言葉は左脳の処理です。
左脳は、ルールベースです。
そして、左脳の役割で、最も重要なのは、世界を認識するってことです。
今のAIに抜けてたのは、この世界を認識するってことだったんです。

だから、言葉もディープラーニングだ、データさえ集めたら会話ができるようになるってやってもできっこないんです。
ジェフ・ベゾスも、このことに気づいてたら、年間、1兆4000億円も損失を出さなくても済んだんですけどねぇ。
今のところ、これに気づいてるのは、ロボマインドだけです。
ベゾスさん、その1%でいいんで、ロボマインドに出資してくれたら、アマゾンの世界征服なんかすぐに実現させますよ。

もし、次、YouTubeの更新がなかったら、ロボマインドに10億円、振り込まれたと思っといてください。
ベゾスさん、10億が難しければ、チャンネル登録、高評価だけでもお願いします。
それから、アマゾンで出してるんで、よかったらこちらの本も読んどいてください。

万一、10億円振り込まれてなかったら、次回、お会いしましょう。
それでは、次回も、おっ楽しみに!