KDL BLOG

Googleアシスタントクイズで学んだ音声認識の課題と未来

先日Googleアシスタントクイズを作ってみましたが、実際にイベントで使ってみると様々な気付きがありました。今回は、使ってみた結果と課題、所感をご紹介します。

クイズで遊んでみよう!のはずが・・

Googleアシスタントクイズは、子ども参観日に向けて1ヶ月近く前から準備していました。会社説明のあと、Google Homeから出題されるKDLクイズに答えてもらうつもりだったのです。しかし当日、クイズの名前だった「子ども参観日」は正しく認識されず起動されない自体に。。

テストではうまく動いていたので、テストしている間にAIアシスタントが学習してしまったのではないかと考えています。

2018-08-24_091113.png

焦りましたねー。子どもたちも想定外の行動を起こしてくれますが、まさかクイズまで想定外とは・・。ここまでくるとインシデント対応です。ポカーンとする子どもたちを横目にクイズはすっ飛ばして先に進み、事なき(?)を得ました。やむなく電源を抜かれたGoogle Homeはセミナールームの隅っこで見学。。

2018-08-24_091117.png

Action on Googleを用いたクイズの制作には数々の課題にぶち当たりました。

数々の課題が浮き彫りに

例えば、社長の名前は?というクイズの正答として「永吉(ながよし)社長(代表名は永吉一郎)」としても、「えいよし」という読みで認識してしまうため、選択肢として「えいよし」と伝えてしまったり、ひらがなで「ながよし社長」と登録していても、音声入力されたデータは「永吉社長」と漢字変換されて認識されてしまい、正解と認識されなかったり。しかたなく「一郎」として正答を登録すると、音声入力では「イチロー」と入力されてしまい一致しない。やむなく、代表名は「イチロー」で登録しました。

判別しにくい単語もありました。社名のクイズで「神戸デジタルラボ」「神戸ベジタブルラボ」「神戸デンタルラボ」と選択肢を用意しても、滑舌次第で「ベジタブルラボ」と「デジタルラボ」を音声で判別できず、正答でも「違います」といわれることも。

KDLが運営する沖縄料理居酒屋「空」の店の名前を回答させるクイズでは、「皿」と「空」の音声を判別できず、「皿」でも「空」でもGoogle Homeからは『正解です!』と褒められる自体に。

音声マイニングの壁

なぜこのようなことが起こるのでしょうか?

それは、音声データを分析するデータとして扱うには、テキストデータに変換する必要があるためです。音の元である空気の振動を電気信号に変換し、波形として記録したものをテキスト(文字)に直すわけですが、その波形から漢字なのかひらがななのかを判別することはできません。そこで、文脈で判断することも研究されていますが、今回のようにクイズ形式に単語で答えるような場面では解決は困難です。

このあたりは、Amazon Alexaでも、LINE Clovaでも共通の課題だそうです(金谷談)。漢字、カタカナ、ひらがな、などいくつもの表記体を持つ日本語は、音声データのマイニングが非常に難しいようです。文脈ではなく単語で答えるクイズなのでなおさらなのかもしれませんね。現時点では、このような場合は辞書を登録していくことになります。実際に専門分野に特化した辞書を持つAIエンジンもあります。

ログの可能性

音声認識の課題にぶつかった一方で、すべてログが残るという点は大きな魅力だと感じました。音声データがテキストに変換されて蓄積されれば、分析対象としてテキストマイニングが可能です。子ども参観日で認識せずに焦っているときも、Google Homeで音声が認識されて「だめだねー」「ひらがなに変換されてないんじゃないかな」というつぶやきが入力されていました。これらも紛れもない「生の声」です。貴重なデータになるに違いありません。

KDLのVUI活用

KDLでは、音声による新しいUIの実現とデータの活用も推進しています。日本では課題が多いのかもと思いながらも、問い合わせはかなり増えて参りました。実際、ハンドフリーによる操作の便利さに感動することもあります。

どんなことに適しているのか?もっと便利に、音声データをもっとフル活用できるように、研究を続けて参ります!

松丸の写真

筆者:松丸恵子

広報室