活動報告

音声認識の仕組み（ウェイクワード）

この記事は CAMPFIRE クラウドファンディング「3Dホログラム・汎用AIアシスタントを普及させたい！」（2024/7/15～8/31）の活動報告の再掲です。

ACUAH はスマートスピーカーのような
“OK, ○○”、”Hey, ○○”
といった「ウェイクワード」による音声認識開始の仕組みは使っていません。

ウェイクワードは、スマートスピーカーなどが常にユーザーからの音（音声）を待ち受けているような状況において、その音がユーザー（人間）の発した声なのかを区別し、音声認識の精度を高めるために利用するものです。また、その他の利点として、スマートスピーカー等に手を触れる事なく操作が可能になる点があります。

ウェイクワードは音声認識で機器を操作するための技術ではあるのですが、一方で、

・毎回、ウェイクワードを言う必要がある
・ウェイクワード自体が対話として不自然（普段の会話で使わない言葉を言わなければならない）
・誤ってテレビやラジオの音声を拾って誤動作してしまう場合がある
・上手く認識してくれない

といった課題があります。

音声認識で動作が可能な照明に「○○、明かりを点けて」と話しかけているのに、うまく動作せず、結局リモコンでボタンを押して操作してしまう。そういった経験をされている方もいらっしゃるのではないでしょうか。

慣れてしまえば特に気にならないのですが、ウェイクワードは、UI（ユーザーインターフェース）としては意外とユーザー側に負担が掛かっているとも言えます。

比べて、

「ボタンや画面をタップ」して音声認識を開始するというのはどうでしょうか。

・ボタンや画面をタップするという物理的な操作で、確実に音声認識が開始できる
・ウェイクワードが不要なので、自然な声掛けができる

従来の簡単な仕組みですが、手を振れないで操作できる事が必要な状況でなければ、実は、UIとしてそれ程悪いものではないと思います。

ACUAH は「キャラクターをタップ」して音声認識を開始する仕組みとしています。

前回お話した、デバイスローカルの音声認識技術を使っている事が理由の一つではあるのですが、音声対話AIアシスタントの普及版を作りたいという開発方針に、現状では適したUIだと考えています。

次回は「対話シナリオ」についてお話させていただきます。

音声認識の仕組み

対話シナリオとは