第524回　目が覚めて、世界を認識する意識プログラム⑤

ロボマインド・プロジェクト、第524弾！
こんにちは、ロボマインドの田方です。

「意識が宿ったAIアバター『もこみ』を本気で作るプロジェクト」、プロジェクトエデンの第一回のデモの解説、今回で5回目です。

プログラムの仕様を考えるために始めたんですけど、ここにきて大きな問題が出てきました。
それを解決しないことには、マインド・エンジンはできません。
そこで、緊急に、その問題を解決することになりました。
詳しくは、この後解説します。
目が覚めて、世界を認識する意識プログラム⑤
それでは、はじめましょう！

まず、現状の設計から説明します。
僕の考えでは、意識は右脳と左脳の二つの情報処理をします。
右脳は見た目の処理で、左脳は意味とか論理的思考の処理です。

右脳の見た目を実現するのは３DCGです。
三次元空間に３Dオブジェクトを配置して世界を再現します。
左脳の論理的思考はオブジェクトを使います。
オブジェクトというのは一種のデータ構造で、プロパティといった属性や、メソッドといった動き、概念の親子関係といった関係性を表現できます。
これを意味オブジェクトと呼ぶことにします。
それからマインド・エンジンの大前提としてあるのが意識の仮想世界仮説です。

人は、目で見た現実世界を頭の中で仮想世界として構築します。
意識は、この仮想世界を介して現実世界を認識します。
これが意識の仮想世界仮説です。

プロジェクト・エデンの場合、現実世界がメタバース、エデンです。
そして、仮想世界が、右脳と左脳の二種類あるわけです。

それからマインド・エンジンは、意識や無意識、仮想世界といったモジュールに分かれていて、モジュール間は通信によってデータのやり取りをします。
通信の中身はJSONというデータモデルを使います。
JSONデータは、たとえば、こんな感じです。

{
  “名前”: “田中太郎”,
  “年齢”: 30,
  “職業”: “エンジニア”
}

テキストと中かっこ（{）、コロン(:)で、データを表現します。
こんなデータをモジュール間でやり取りするわけです。

さて、たとえば、今、目のまえにリンゴがあったとします。
そのリンゴを指さして、（リンゴ本体を指さしてる写真）
$C:\Users\takata\AppData\Local\Microsoft\Windows\INetCache\Content.Word\photo01.jpg$ $C:\Users\takata\AppData\Local\Microsoft\Windows\INetCache\Content.Word\finger-pointing-pointer-sign-gesture-260nw-2478213007.jpg$
「これは何ですか？」ってAIアバターのもこみに聞いたとします。
すると、もこみの無意識は画像解析してリンゴと判断したら３Dのリンゴオブジェクトを仮想世界に作ります。
質問されたのはもこみの意識です。
意識は無意識に「これは何？」と問いかけます。
無意識は、質問内容によって担当者が異なるので、まず、どの担当者に振るか振り分けます。
今、指さしたものを聞いてるので、使うのは３Dの仮想世界、つまり右脳の処理になるので、右脳担当にメッセージを送ります。
受け取った担当者は、３Dのリンゴオブジェクトから「リンゴ」と判断して、「リンゴ」ってJSONデータを返します。
そして、それを受けた意識は「リンゴ」って答えます。

今度は、「リンゴは果物ですか？」ってもこみに質問します。
今回は、リンゴは果物概念に属するかって質問なので、左脳の論理思考担当者に振り分けます。
すると担当者は、リンゴの親概念に「果物概念」があることを確認して「リンゴは果物」というJSONデータを返します。
意識はそれをうけて「リンゴは果物です」って答えます。

こうやって、意識は右脳と左脳を使い分けて会話するわけです。
何も問題ないように思いますよね。

でも、なんかしっくりこないんですよ。
無意識から送られてきたJSONデータを受け取った時、意識は何かを感じるわけですよね。
それが、「これはリンゴだ」とか、「リンゴは果物だ」とかです。

僕らは、人と同じように世界を認識する意識プログラムを作ろうとしています。
しっくりこないっていうのは、僕らは、「これは何」って聞かれたとき、「リンゴ」ってデータを受け取ってるんでしょうか？
なんか、それは、世界を「見ている」って経験とはちょっと違うんじゃないかって思うんですよ。
問題っていうのは、ここなんですよ。

そこで、世界を認識するとはどういうことか、もう少し考えてみました。
たとえば、リンゴを指さして「これ何？」って聞いたとします。
（リンゴ本体を指さしてる写真）
$C:\Users\takata\AppData\Local\Microsoft\Windows\INetCache\Content.Word\finger-pointing-pointer-sign-gesture-260nw-2478213007.jpg$
さて、この、指をさすって何でしょう？

それは、言ってみれば、指がさしているオブジェクトについて注目せよってことですよね。
じゃぁ、注目って何でしょう？

目の前にはいろんなものが見えています。
そのうち、何かについて、これから考えるわけです。
これが注目です。

まぁ、なんとなく分からないでもないです。
そもそも、「注目するの意味がわかる」って、どうなれば「意味が分かる」と言えるんでしょう？

僕が考えるに、おそらく、頭の中に「注目する」ってメソッドがあるんですよ。
相手が「注目して」といったとき、その頭の中のメソッドを発動できたら、それが理解できたってことです。

つまりね、相手が言ってることの「意味が分かる」には、その意味に該当するメソッドをお互い持ってる必要があるんです。
そして、「そのメソッドを使って」って言われて、そのメソッドを使ったとき、これが、意味が通じたってことなんですよ。

今、認識してるのは右脳が判断する見た目の三次元世界ですよね。
ということは、どうも、三次元世界には「注目する」ってメソッドがあるようなんです。
ここで注意してほしいのは、この「注目する」ってメソッドは、意識が持ってるんじゃなくて、「三次元世界」がもってるってことです。
それから、三次元世界は目に見えるものを扱う世界ですけど、それ以外にも世界はあると思います。

たとえばスーパーで買い物してて、店内に音楽が流れていて、「この曲知ってる？」って聞かれたとします。
曲って目で見るものじゃなくて、耳で聴くものですよね。
曲があるのは、いってみれば聴覚世界です。
おそらく、聴覚世界にはいろんな音オブジェクトがあります。
人の話し声とか、足音とか。
その中で、音楽オブジェクトがあるわけです。
「この曲知ってる？」って言ったとき、音楽オブジェクトをさしてるわけです。
意識が認識する世界って、目で見る三次元世界とか、聴覚世界とか、いろんな世界があるわけです。
そして、それぞれの世界には、その世界に応じたオブジェクトがあります。
さらに、それぞれの世界には、その世界のオブジェクトを注目するメソッドもあるわけです。
メソッドの一つが「これ」とか「この」です。
その他、「あれ」とか「あの」ってメソッドもあります。

たとえば、スーパーの果物コーナーで買い物してるとき、子供があちこち指さして、「これ何？」とか、「あれ何？」って聞いたりしますよね。
そしたら、「これはリンゴ」「あれはパイナップル」って答えたりしますよね。
こんな会話ができるってことは、「これ」とか「あれ」ってメソッドをお互いが持ってるってことです。

そんなの、当たり前やって思うかもしれません。
でも、これ、当たり前じゃないんですよ。

たとえば、自閉症の子は、指さしの意味がわからないっていいます。
「あれ」って遠くを指さしても指先を見るんです。
指さしって、「指の延長線上にあるものに注目して」ってメソッドです。
それが理解できないってことは、「あれ」のメソッドを持ってないわけです。
つまり、「これ」とか「あれ」っていうのは、脳の中に存在する機能ってことです。
そして、その機能は三次元世界が持つメソッドっていうことです。

今、視覚による三次元世界と、聴覚世界について考えましたけど、おそらく嗅覚世界とか触覚世界とかもあります。
嗅覚世界には「カレーの匂い」って嗅覚オブジェクトがあって、触覚世界には「ザラザラ」とか「ツルツル」とかって触覚オブジェクトがあるんです。
現実世界は、これらが混然一体となっています。
その中から、五感に対応した仮想世界をリアルタイムで作り上げてるんです。
それが、起きている間、無意識が自動で行っていることです。

その状態は、意識は世界があると感じているだけです。
寝てるわけじゃないですけど、かといって、何かをしてるわけじゃありません。
ぼぉーっとしてる状態です。
脳の場合、これはデフォルトモードネットワークといわれる神経活動です。
車なら、信号待ちで止まっている状態です。
いつでも、走り出す準備はできているけど、動いていない状態ってことです。

ぼーっとしながらスーパーで買い物してたら、子供が「これ何？」ってリンゴを指さします。
すると、ぼーっとした状態から、何かに注目する状態に移行します。
何らかの目的を持って情報処理をする状態です。
この脳状態を、セントラル・エグゼクティブ・ネットワークとか実行機能ネットワークと言います。

これをマインド・エンジンで再現する必要があるんです。
実行機能ネットワーク状態というのは、何かに注目しますよね。
注目するには、まず、どの世界で注目するのか決めないといけないですよね。
今の場合なら、子供が指さしてるものに注目するのですから、視覚による三次元空間世界です。
その他にも、聴覚世界とか嗅覚世界とかいろいろあって、状況に応じて世界を切り替えるわけです。
これを実現するには、意識プログラムに、まず、いろんな世界を持てる「注目世界」というものを作ります。
そこが空で、特に何も注目してない状態がデフォルトモード・ネットワークの状態です。

「これ何？」と聞かれた瞬間、無意識は注目世界に三次元空間世界をセットします。
これは、いま見えてる三次元の仮想世界の一部を格納するミニ仮想世界といった感じです。
そして、そこに指さされた３Dオブジェクト、今の場合ならリンゴオブジェクトを入れます。

注目世界も、元となる仮想世界もどちらも三次元空間世界ですが、一番の違いは、注目世界にはメソッドがあるということです。
三次元空間世界の場合なら、「これ」とか「あれ」がメソッドです。
それ以外に、オブジェクトの要素を取得するメソッドも持っています。
たとえば、「これは何色？」（リンゴ本体を指さしてる写真）
$C:\Users\takata\AppData\Local\Microsoft\Windows\INetCache\Content.Word\finger-pointing-pointer-sign-gesture-260nw-2478213007.jpg$
って質問されると、指さしてる部分の色プロパティを取得して「赤」と答えることができます。
「じゃぁ、これは何色？」（リンゴの葉っぱを指さしてる写真）
$C:\Users\takata\AppData\Local\Microsoft\Windows\INetCache\Content.Word\finger-pointing-pointer-sign-gesture-260nw-2478213007.jpg$
って質問には、葉っぱの色プロパティを取得して、「緑」って答えます。

ここで注意してほしいのは、今、行ってる処理は、全て意識プログラムの中で行っているってことです。
どういうことかというと、最初の設計では、「これは何？」って聞いたとき、無意識が処理してJSONデータで「リンゴ」って意識に送って、意識はそれを答えていたでしょ？
これじゃ、見えてるとは言えないんですよ。
というか、これじゃぁ、無意識の言いなりです。
自由意志とは言えません。

今回は、意識プログラムの中に、注目世界というのを作って、その中に３Dオブジェクトのリンゴを配置したんです。
そして、注目世界のメソッドを意識が操作して、リンゴと認識したり、色を取得するわけです。
この一連の処理は、意識プログラムの中で行われています。
これが意識がおこなう「見る」という経験です。

それから、注目世界に三次元空間世界をセットするのは無意識です。
ここまでは、無意識が行います。
ただ、そのあと、どこを見るとか、見てるものが何かは意識が直接メソッドを操作します。
つまり、これは、無意識の言いなりになってるわけじゃなくて、意識が主体的に世界に働きかけているわけです。
僕は、このことを指して、意識は自由意志を持つと定義します。
これは、あくまでもマインド・エンジンでの自由意志の定義になりますけど、ただ、今まで、ここまで厳密に自由意志を定義したものはないと言えます。

次は、聴覚世界です。
「この曲知ってる？」って聞かれたら、無意識は、注目世界に聴覚世界をセットします。
聴覚世界には、いろんな音がオブジェクトとして配置されますけど、「この曲」と言われたら、それらの中から音楽オブジェクトを取り出して、それに注目します。
注目するというのは、注目世界に注目してるオブジェクトだけ配置して、それ以外を取り除くことです。
そして、音楽に関する記憶と照らし合わせて、「どっかで聴いたことある曲やわ」とかって答えることができます。
これが「聞く」という経験です。
ここまでは、五感で感じる世界で、これは右脳の処理になります。

次は、左脳の論理的世界について考えます。
論理的世界は、３Dオブジェクトじゃなくて意味オブジェクトが配置されます。
同じリンゴでも３Dオブジェクトと意味オブジェクトがあって、それぞれに赤い色を持っています。
何が違うかというと、３Dオブジェクトの赤は本物の赤で、意味オブジェクトの赤は記号としての赤です。

ここ、重要なので詳しく説明します。
現実世界を撮影した二次元画像を基に、三次元空間の仮想世界を作って、そこ３Dオブジェクトのリンゴを配置します。
注目世界の三次元空間世界を使って認識するのが「見る」という経験です。

その時意識が認識する赤は、RGBのカラーモデルだと(255,0,0)となります。
重要なのは、数値で表現したということじゃなくて、それは三次元世界の中で定義された赤ということです。

一方、論理世界の意味オブジェクトは色プロパティを持っていて、そこには「赤」と書かれています。
これは色そのものというより、赤を示す記号です。
重要なのは、記号しての赤は現実世界から生み出されたわけじゃないってことです。

どういうことかというと、色は現実の物理世界では可視光の光ですよね。
網膜には特定の波長の光を検出する錐体細胞があります。
この錐体細胞が先天的にないと、色を識別できない色覚異常となります。
色覚異常の人でも、「赤」があるということは理解できます。
この世界には色という概念があって、その中に赤とかあるとかって関係性は理解できるわけです。
この時使っているのが論理世界の「赤」です。

でも、その人は赤を経験してませんよね。
赤を経験するというのは、現実世界のリンゴを見て「赤い」と感じることです。
それは、現実世界のリンゴから３Dのリンゴオブジェクトを作って、色判定メソッドを使って意識がリンゴオブジェクトの色を判定することです。
これが、意識が「赤を見る」とか「赤を経験する」ということです。
このとき経験した赤のことを「赤のクオリア」ともいいます。

次は、時間について考えてみましょう。
時間は、時間世界にあります。
ここで、ある瞬間の世界を場面として定義します。
場面は、ある場所の状況に、時と場所のプロパティを追加したものです。

時間世界というのは、時間を指定されると、それに対応する場面を取り出すメソッドを持っています。
「昨日の晩御飯は何をたべましたか？」って質問されると、無意識が、注目世界に時間世界を設定します。
これで、意識は思い出す準備ができました。
そして、メソッドに「昨日を晩御飯を教えて」って質問すると、昨日の晩御飯の場面が再現されます。
それは、たとえば自分がカレーを食べてる場面です。
それを認識して「カレー」って答えます。
これが時間世界です。
時間世界は、左脳の論理世界の一つです。

その他の論理世界として、数学世界もあります。
数学世界は足し算とか引き算ってメソッドがあります。
それから所有権世界という論理世界もあります。
所有権世界は、ものと、その所有者の関係を表現できます。
さらに、所有権の移動として、「あげる」とか「売る」「買う」ってメソッドが定義されています。

スーパーでリンゴを見て、「ツヤツヤしておいしそう」って思う時は、注目世界は三次元空間世界になっています。
「リンゴのいい香り」って感じるときは、嗅覚世界になっています。
これらが右脳の世界です。

子供に「それは何」と聞かれて「リンゴよ」って答えるときは、左脳の論理世界になっています。
「これを買おう」って思うのは、所有権世界です。
今、財布にいくら入っていて、リンゴをいくつ買えるか計算するときは数学世界を使います。
こんな風に、普段、何気なくやってることって、実は、いろんな世界を瞬時に切り替えながら行っているんです。
意識には、注目世界という新しい仕組みが必要だってことがわかりました。

さて、プロジェクト・エデンの最初のデモは、もこみが朝起きて「7時かぁ」っていうところです。
前回まで、ずっと、その話をしていました。
それに、今回考えた注目世界を組み込まないといけません。
その話は、次回にします。

はい、今回はここまでです。
この動画が面白かったらチャンネル登録、高評価お願いしますね。
それから、動画で紹介した意識の仮想世界仮説については、こちらの本を読んでください。
それじゃぁ、次回も、おっ楽しみに！