「分析データは何件必要か?」は目的とデータの特性から見える


テキストの分析を行う際に、よくご質問を受けるのが「分析データは何件くらい用意すればいいのか?」という課題です。
テキストマイニングツールの性能を活かせるデータ量とは、一体どの程度のボリュームが必要なのでしょうか。

今回は目的とデータの特性から「用意するべきデータ件数」を考える手法についてご説明します。

1.今回の分析目的から考える

まずは自分が分析する目的から、必要となるデータ件数を考えます。

アンケートを分析する場合、「このアンケート結果から何を知りたいのか?」を明確にするべきでしょう。
全ての意見を知りたいのであれば、対象データは収集できた分すべてとなります。
大意を知りたいのであれば、1万件未満の場合はそのままの件数で、数万件~数十万件規模であればランダム1万件程度を抽出すると良いでしょう。
10万件を1万件に絞り込んだとしても主要な意見の割合は大きく変わらないため、分析工数を減らす意味でもサンプリングが有効と言えます。

また、一度限りのアンケートではなく、定期的に取得しているアンケートである場合、時系列変化を知りたければ1年~3年程度の期間を集める必要があります。
この場合はデータも絞り込みを行わず、対象期間中の全データを分析対象としなければ、正しい推移を知ることができないため注意が必要です。

応対履歴を分析する場合、「一度限りの分析か、もしくは今回得た分類方針を定常的に使用したいか」により、用意するデータ件数や期間が変わります。
一度限りの分析の場合はアンケートと同様の考え方でデータを用意します。
分類方針を定常的に使用したいのであれば、話題を網羅した分析結果を得る必要があるため、分析対象となるデータにも網羅性が求められます。
特に季節ごとに話題が変わるような窓口である場合は、必ず通年のデータを用意する必要があります。

SNSデータを分析する場合、目的がどうであれ全ての意見を網羅することは不可能です。
主要な話題を知りたければ、ターゲットとなるキーワードを含む数万件~数十万件のデータがあれば一般意見を収集できると考えられます。
少数のニッチな意見を知りたい場合は数百万件規模を対象とすることもありますが、これほど大規模となれば少数意見も膨大な数となり、「きらりと光る意見」を発掘するのは非常に困難と言えます。

2.データの特性から考える

分析の対象となるデータの特性によっては、求められるデータ量が変わってしまいます。

音声認識データの場合、通話中のすべての会話がテキスト化されるため情報量が多く、1件の通話記録でも非常にリッチなデータと言えます。
とは言え、数十件程度のデータを分析したところで「たまたまこうだった」結果しか得られない可能性が高いため、分析対象として最低500件以上は用意するべきでしょう。

SNSデータにはゴミ情報(RTのみ、同音異義語、ネタツイート)が多く含まれるため、1万件未満のデータ件数では大半が分析対象外となり、情報量が不足してしまいます。
データ収集時点では数十万件あっても実際分析に使えるのは1/10か1/100…という事も少なくないため、データが削ぎ落されることを前提に件数を用意するのが良いでしょう。

3.使用するテキストマイニングツールの特長から考える

分析に使用するテキストマイニングツールによっても、用意すべきデータ件数に差が生じます。

AI技術を使用したテキストマイニングツールの場合、元となる学習用教師データが必要になることもあり、その件数は数十件~数千件程度と考えられます。

機械学習を用いたVextMinerの場合、自動学習の精度を担保するためには最低2000件程度のデータが必要となります。
ただしこれはアンケートやTwitterなどの短文を対象とした場合となり、1件あたりの文章量が多いデータであれば2000件を下回る場合でも十分な学習量を得られる可能性があります。

分析を行う前に、目的やデータの特性、使用するツールの特長から、必要となるデータ件数を洗い出しましょう。


より詳細な情報や事例について知りたい方は、お問合せフォームよりぜひお気軽にお問合せください。テキストマイニングに興味をお持ちの方は、無料のセミナーもございますので、お気軽にご参加ください。

関連製品:VextMiner
関連ワード:自然言語処理