バーチャルヒューマンエージェントがクルマの操作を変える…自動車のAIとゲームのAIの関係

進化するAIが越えなければならないハードル

クルマの「中の人」を作れるか

AR+AIエージェント…クーガーの取り組み

AIを学習させるシミュレーター

普段の会話からタスクを自律的に設定

現行AIとゲームAIでより自然な行動

独自技術で表情をつくる

バーチャルヒューマンエージェントがクルマの操作を変える…自動車のAIとゲームのAIの関係
バーチャルヒューマンエージェントがクルマの操作を変える…自動車のAIとゲームのAIの関係全 11 枚写真をすべて見る

スマートスピーカーが家庭に入り、トヨタのT-ConnectやメルセデスのMBUXなどAIエージェントが着実に生活に溶け込んできている。しかし、これらが本当に人間と会話をしているかといえば、残念ながらそうではない。

ただ、その取り組みは各方面で続いている。

進化するAIが越えなければならないハードル

AppleのSiri、Amazon Alexa、Google Assistant、MBUXなどは、人間の命令をかなり柔軟に解釈し反応してくれる。音声操作だけで、メールを作成して送ったり、ちょっとした調べものをしたり、注文やチケットを予約したり、カーナビの細かい設定まで可能になってきている。音声認識の精度も高く、指示や質問のコツをつかめば、かなり便利に使える。

カーナビ、インフォテインメント機器でいえば、AI(ディープラーニング)の活用により、決まったフレーズでなくてもある程度意味を理解し、1、2回の対話処理で目的地を変更したり、2語、3語を組み合わせた文章を理解したりも可能になった。「音声認識」のレベルから、ようやく「エージェント」と呼べるようになった感はある。

とはいえ、エージェント、アシスタント、コンシェルジュなどと呼ばれているAI機能が、自然言語処理、コンテキストの認識において超えなければならないことはまだまだ多い。

そのひとつは、「OK Google!」などの起動ワードが必要なことだ。

クルマの「中の人」を作れるか

特定のワードでエージェントを起動するということは、AIに対して、待機状態から指示を与える「モード切り替え」を明示してやらなければならないということだ。

どれが自分に対する命令かを自律的に認識できないと、テレビの声に反応してしまう誤作動や、突然AIスピーカーが笑いだしてしまうことを、AIレベルで判断・回避することはできない。

逆にいえば、起動ワードなしでAIが操作できれば、クルマの中で家族や同乗者との会話から、ナビの目的地を変更したり、現地の天気を教えてくれたり、近くのコンビニを探したり、といった機能が実現できる。もちろん、こちらが指示するまで勝手に起動しないという設計を、あえてそのようにする意味もある。受付業務などはその典型だろう。

すべてのカーナビやエージェントがここまで進化する必要があるかどうかの議論はあるかもしれないが、会話のコンテキストまで理解できるAIが実現できれば、クルマの中のエージェントは、疑似的な人格をもったクルマ、もしくはクルマの「中の人」として機能し、エージェントとの会話が成立するようになる。

AR+AIエージェント…クーガーの取り組み

この課題に対して、独自のアプローチで研究し、製品化を目指している企業がある。「クーガー(Couger)」というAIベンチャーだ。代表取締役 CEO 石井敦氏によれば、クーガーでは、AI、AR、ブロックチェーンをつなぐプラットフォームを作り、次世代のインターフェイスを研究開発している。すでにいくつかの実装事例もある。

クーガーが開発中のバーチャルヒューマンエージェントに「RACHEL(レイチェル)」という製品がある。この名称は映画『ブレードランナー』に登場するレプリカントの名前にちなんでいる。機能は、続編として作られた『ブレードランナー2049』に登場するAIアシスタント(パートナー)であるジョイに近い。

特定のマーカーに反応してARオブジェクトが表示されるのではなく、映像の中のAIは実際の空間を把握し、椅子や机をよけて動き、相手や状況を認識してユーザーと対話する。

RACHELの一部は、KDDIとの共同開発であるヒューマン型意思決定AI(アバターは初音ミク)として実装されている。これは、スマートフォンの映像の中で動くアニメーションのAIエージェントだ。

AIを学習させるシミュレーター

ホンダには、自動運転AIを学習させるためのシミュレーター「Dimention」を提供している。通常、画像認識や自動運転用のAIに学習させるデータは、実際の走行画像やデータを利用するが、あらゆるパターンの実データを収集する代わりに、シミュレーターを利用することがある。AI学習用のシミュレーターは、決められた反応を設定されたシナリオで再現するだけではない機能が求められる。天候、気温・湿度、時間や季節ごとの日差しや影など自然現象を再現する必要と、歩行者や先行車、対向車、直交車の動き、信号の動きを再現する必要がある。

他にもNEDOとの共同研究、クラウドを利用したロボティクスの研究も行っている。なお、ブロックチェーンは、AIの学習履歴やAIモデルの出力結果(認識結果)の正当性、真正性を保証するために利用している。ブロックチェーンを契約、処理、プロセスの証明に利用する技術はスマートコントラクトと呼ばれているが、AIの処理に対する説明責任を果たすための技術としても期待されている。

普段の会話からタスクを自律的に設定

石井氏らは、これらの技術を活用したAIで、クルマの操作をするだけでない、車内空間に新しい価値をもたらすエージェントを作ろうとしている。

RACHELのプロトタイプ動画には次のようなシーンがある。クルマに同乗者が乗ってきたとき、挨拶や顔認識で相手を認識し、スケジュールをチェックする。さらに、好みの音楽再生をレコメンドする。同乗者やドライバーとの間で「朝食まだ食べてない」という会話があれば、近くの飲食店(ラーメン屋)を紹介する。「そこがいいね」となれば目的地をナビに設定する。といった具合だ。

このような機能は、自動運転が進んだり、無人タクシーなどが普及したりしすると意味を持つようになる。AIエージェントは、人間の会話の中に自然に入り、必要な情報や機能を提供する。人によって提案内容を変えるパーソナライズにも対応できる。ファミリーカーなら、後部座席で子どもの相手をしたり、危ないことをしないかチェックしたり子守りのようなことも可能かもしれない。

現行AIとゲームAIでより自然な行動

人間の会話の中に自然に入っていき、AI自ら会話をしながら、できること、するべきことを判断して提案、実行する。このようなAIで重要なのは、ひとつはエージェントが顔と表情を持つこと。もうひとつは、機械学習やディープラーニングだけではないゲームAI技術の活用だと石井氏はいう。

ゲームAIは、ゲーム空間の物理現象、敵の動き、味方(パートナー)の動き、その他モブキャラクターの動きを、自然現象や本当の敵や人間の動きとして再現するためのAIだ。クーガーがホンダに提供したというシミュレーターもゲームAIの技術が生きている。

進行やシナリオにAIを導入しているゲームはまだ多くはないが、そのようなゲームは、特定の状況でこれをすればこうなる、といった攻略はできなくなる。本物の敵を相手にしているようなリアリティの高いゲームとなる。

独自技術で表情をつくる

AIエージェントとしては、カメラやセンサーのデータを認知処理する機械学習やディープラーニングと、エージェントの個性や行動を規定するゲームAI技術だけでは、まだ十分とはいえない。感情や表情をどう実現するかもバーチャルヒューマンエージェントには欠かせない。AIがアバターを持ち表情を伴ったインターフェイスだと、人間の応答も早くなり会話がスムースに進むという研究もある。

エージェントに表情を持たせる部分は、クーガーの独自技術だ。画像や音声など現行AIの認知情報から、意識や表情、行動の元となるような情報(フォーカス、記憶、出来事、セマンティックなど)を判断、抽出して、喜怒哀楽の表情を作るというもの。

RACHELのようなエージェントは、車載アシスタントの他、受付やコールセンター、ゲームやイベントなどエンターテインメント分野での活用が期待できる。クーガーでは、RACHELを構成する、現行AI、意識・表情の処理、ゲームAIによるパーソナライズ、行動(表示・発話)処理など、各コンポーネントを「Connectome(コネクトーム)」というプラットフォームにしようとしている。コネクトームは神経細胞の接続状態を表す用語。前述コンポーネント群が複雑に連携しあって意識や感情を作る処理を、脳細胞の働きになぞらえている

クーガーは、ゆくゆくはこのプラットフォームの開発環境(SDK)を外部に解放し、開発者やサービスプロバイダーなどが、独自のエージェントを開発できるようにしたいとしている。

《中尾真二》

この記事の写真

/

ピックアップ

Swipe

Next
/article/2018/12/25/317475.html/article/2018/12/25/317474.html/article/2018/12/25/317476.html