「分析ができる最低ライン」の音声認識精度はどれくらい?


音声認識を導入済みでこれからテキストマイニングに着手する、という段階で気になるのが、「音声認識精度はどれくらいあれば分析ができるのか?」問題。
既にデータは取っているけど、音声認識精度に不安がある…とご相談を受けることも多々あります。

今回は「分析ができる最低ライン」の音声認識精度はどれくらいなのか、数値だけではない判断方法をご説明します。

音声認識精度とはそもそも何か?

音声認識精度とは、実際に話した内容の文章と音声認識された結果を比較して、一致していれば「精度が高い」、不一致であれば「精度が低い」と評されます。
また、その結果は「音声認識率」として%で評価されます。

精度が低く正しく認識されなかった場合は「誤認識」と呼ばれ、似た音の別の言葉に置き換えられたり、同じ発音でも違う意味の言葉に変換されたりと、元の文章とは異なる結果となってしまいます。

音声認識精度の評価指標である音声認識率の判定方法はシステムベンダーにより様々で、業界基準があるわけではありません。
そのため、A社システムの「音声認識率80%」とB社システムの「音声認識率80%」は同じレベルである、とは一概に言い切れないものとなります。

音声認識精度が低くなる要因

それでは、どのような場合に音声認識精度が低くなるのでしょうか。
一般的に、以下のような要因が関係していると考えられます。
① 通信環境
② 専門用語
③ 話者

①通信環境

例えば自宅から電話を掛けた場合と、駅から電話を掛けた場合、後者が圧倒的に認識率を下げる要因となり得ます。
駅では構内アナウンスや電車の音、周囲の会話などを拾ってしまい、いわゆる「雑音」が混じることで話者の会話内容が認識しづらくなります。

②専門用語

音声認識システムは内部に単語辞書を有しており、入力された音声と照らし合わせて適切な表現に変換します。
一般的な単語であればデフォルトの辞書で対応ができますが、専門的な用語であった場合辞書に登録されておらず、同音異義語や近い音の別語句に置き換えられてしまいます。

③話者

話者、すなわち通話の話し手の会話速度や年齢なども影響します。
話す速度が速ければ、例えば「美容院(びよういん)」が「病院(びょういん)」と変換されてしまうなど、誤認識を招いてしまいます。
また、話者が高齢である場合、話し振りや抑揚の具合により認識率が低下する可能性があります。

音声認識精度はどの程度あればいいのか?

前述の通り、外的要因により音声認識精度は揺らいでしまいます。
話者が一般消費者である場合はこれが顕著となり、年齢や性別、環境もバラバラとなれば安定した精度を保つことは困難です。
しかしこれがBtoCのコンタクトセンターの音声であれば、もう一方の話者であるオペレーターは安定した環境下かつ教育を受けた上で会話を行うため、一般消費者に比べて認識精度を高く保つことが可能です。
この「オペレーター側は高い認識精度を持つ」ことがテキストマイニングにおいて重要なポイントとなります。

その理由として、「カスタマー側の会話内容に誤認識があっても、オペレーターが復唱をすることで内容を特定できる」ことが挙げられます。
以下に、会員登録に関する窓口の音声認識結果を例としてご紹介します。

例)
カスタマー「簡易書がなくなっちゃったんだけど。」
オペレーター「会員証を紛失されたのですね、承知しました。」

このように、カスタマー側に誤認識(簡易書/会員証)があったとしても、オペレーターが復唱を行うことで対話の補足関係が生まれ、正しくは何と言いたかったのかを確認することができます。

つまり、音声認識精度は「対話の補足関係を用いれば、カスタマー側が低くても(70%程度)、オペレーター側が高ければ(90%以上)テキスト分析上問題がない」と言えます。

しかしこの際に気を付けなければいけないのが、「分析に使用するテキストマイニングツールが、対話の補足関係をかたまりとして捉えられる分析ツールか?」というポイントです。
発話(発言)単位で分析を行うテキストマイニングツールの場合は「簡易書がなくなっちゃったんだけど。」というテキストだけで判断をしなければならず、誤認識の影響を全面的に受けてしまいます。
音声認識テキストを分析する場合は「対話状態を保ち、補足関係を活かした分析が可能なツール」を選択することをお勧めします。

音声認識精度は数字だけでは判断できない

専門用語を使用するコンタクトセンターの場合、音声認識精度は数字だけでは判断できません。
全体の音声認識精度がいくら高くとも、自社の製品名や、特殊な部品、それらの正式名称と略称が誤認識となってしまうと、「何が主語なのか?」が分からず分析の難易度が跳ね上がります。
「ベクスト」が「ネクスト」と判断される程度であれば正しい言葉を想像することが可能ですが、似た音の言葉もないような特殊な単語の場合、予測も付かない変換がなされることもあります。

そのため、自社特有の表現が使用されるコンタクトセンターであれば、必ず事前に辞書のチューニングを行う必要があります。

音声認識テキストに対してテキストマイニングを行う際は、ツールの特性も考慮して、「分析を行うためにはどこまで正しく出力されていればいいのか」を考える必要があります。


より詳細な情報や事例について知りたい方は、お問合せフォームよりぜひお気軽にお問合せください。テキストマイニングに興味をお持ちの方は、無料のセミナーもございますので、お気軽にご参加ください。

関連製品:VextVoiceMiner
関連ワード:自然言語処理