テキストマイニングで業務に役立つ情報を抽出し、効果的な分析を行うには、適切なサンプル件数を選定することが重要です。しかし、サンプル件数はどのような観点で決めるのが良いのでしょうか?
本記事では、テキストマイニングに適したサンプル件数を決定するためのポイントをご紹介します。
1. 分析の目的を明確にする
データを投入するだけであれば、数百件のデータであってもツールに投入して結果を得ることは可能でしょう。しかし、得られた結果を業務で活用するには、何をデータから得たいのかという分析の目的が重要になります。
まず、分析に求められる精度によって必要な件数が変わるため、目的に応じた精度を出すのに必要な件数を検討する必要があります。
VextMinerでは分析対象のデータから自動的に学習を行い、関連度を算出して話題をグルーピングすることが可能です。
この際に十分な精度を出すには、アンケートやSNSの投稿といった短い文章であれば、網羅的な学習を行うには少なくとも2000件程度のデータが必要になります。
また、時系列の変化を見ることが目的になる場合は、期間当たりの件数が重要になります。比較する単位(日、月、年)毎に精度を得るのに十分なサンプル数を用意することが重要になります。
時系列での傾向分析を行う場合には、季節要因で話題の構成が大幅に変わることもあるため、1年~3年程度のデータが必要になります。
このように、分析の目的を明確に定めることが最低限必要なサンプル数を考える上で最も重要になります。
2. データの偏りを考慮する
データを分析するにあたり、分析対象を多角的に見るためにはデータに付与された情報が重要となります。例えばアンケートを分析するにあたっては、年齢、地域、性別といった回答者の属性情報が重要になります。特定の属性に大きな偏りがあり、例えば女性の回答者は2000件だが男性は100件しかない場合、分析対象として十分に精度を得られる件数ですが、性別による傾向を分析するには男性の回答数が足りません。このように、特定の属性で傾向の分析を行うには項目ごとに十分なサンプル数を確保する必要があります。
テキストマイニングで効果的な結果を得るには属性を含めたデータの偏りを考慮して、サンプル数を用意する必要があります。
3. データの質を考慮する
分析に必要な最低サンプル数は、データの質にも大きく左右されます。質をはかる指標として、まずは一件あたりにどの程度の文章が含まれているかが重要になります。1件あたり数千文字となるような技術情報や、大量のテキストで構成されるコールセンターや会議の起こしのような音声認識テキストであれば、1件(1通話)が複数話題で構成されているため、500件程度用意できれば話題の網羅性として一定以上の精度を得ることができるでしょう。
一方で、短文が多く、ボットによる自動投稿等不要なデータを大量に含むSNSのデータの場合は、2000件のデータを用意してもノイズとなるデータが多く、実際のユーザーの声は2000件の内200件しかないということも起こり得ます。こういったノイズや不要な内容が多いデータは、実際に分析に活用できるデータの件数を見込んで多めに用意する必要があります。
データの質によって必要なサンプル数も大きく変わる事があるため、文章量の多いリッチなデータなのか、SNSなどのノイズの多いデータなのかで必要なサンプル数は大きく変わります。
まとめ
テキストマイニングに必要なサンプル数は、目的やデータの偏り、データの質で大きく変わります。
分析の対象に合わせて適切なサンプル数を用意することが、分析を活かすことができるかの重要なポイントになります。
関連記事:「分析データは何件必要か?」は目的とデータの特性から見える
より詳細な情報や事例について知りたい方は、お問合せフォームよりぜひお気軽にお問合せください。
VOCダッシュボードや分析ツールは下記の関連製品のページを参照ください。「お役立ち資料」のページからも関連製品の情報をダウンロードいただけます。
テキストマイニングに興味をお持ちの方は、無料のセミナーもございます。
関連製品:VextMiner
関連ワード:自然言語処理、テキスト分析、サンプル件数、学習