活動報告

対話シナリオとは

この記事は CAMPFIRE クラウドファンディング「3Dホログラム・汎用AIアシスタント を普及させたい!」(2024/7/15~8/31)の活動報告の再掲です。


ACUAH のプロジェクト説明の中に「対話シナリオ」という言葉があるのですが、そもそも「対話シナリオ」とは何か。というお話をさせていただきます。

音声対話を実現する上で非常に重要な仕組みです。

「対話シナリオ」とは、以下のような表と考えてください。
テキスト文字に対して、どんな動作をすれば良いかが 1対1 で記載されている表です。

音声認識の仕組みで、ユーザーの音(音声)がテキスト文字に変換される事をご説明しました。

例えば、マイクに向かって「こんにちは」と言うと、「今日は」というテキスト文字に変換されます。では、その後はどうなるでしょうか。

この「対話シナリオ」のテキスト文字列を調べます。
すると、2行目に「今日は」というテキスト文字に対しては『手を振って「今日は」という音声を再生する』という動作が記載されています。

そこで、この対話シナリオに従って、キャラクターが 手を振って「今日は」という音声を再生する、という動作をします。

この、「対話シナリオ」のメリットは、

・対話シナリオに該当するテキスト文字が記載されていれば、確実に(100%)決まった動作をさせる事ができる

という点になります。

逆に、対話シナリオに該当するテキスト文字が見つからない場合には、動作させる事ができません。(ACUAH でも、「分からなかった」という回答をします。)

ユーザーは様々な言葉をマイクに向かって話しかけてきますので、どんな言葉を話してくるかを想定して、全てのテキスト文字を対話シナリオに記載しなければなりません。(特に日本語はハイコンテクストですので、主語が除かれたりして難解です。)


そこで、ChatGPTのような昨今のAI(LLM:大規模言語モデル)が救世主となりました。

ユーザーが発する様々な言葉に対して、推測に基づいて何かしらの応答をする事が可能になりました。これは自然な音声対話を実現する上で欠かせないものです。

次は ACUAHのような音声対話汎用AIアシスタントを作る前提で、「対話シナリオとAIを組み合わせた仕組み」について、お話できればと思いますが、

ACUAH はなぜ対話シナリオにこだわるのか。

「対話シナリオは、確実に決まった動作をさせる事ができる」

というのは大切な事なので、ご理解頂けると幸いです。

TOP