2. テキストマイニングの基本技術
全件マッチング機能(少数意見の発掘)
クラスタリング・カテゴライズにより、大半の課題は解決しましたが、残った問題は「その他」に存在する少数意見の分析です。「その他」は、どのカテゴリにも属さない少数意見の集合体であり、これを簡便に把握する機能として誕生したのが「全件マッチング」です。
全件マッチングは、総当り戦で類似話題を抽出する機能で、「2件以上の類似話題をヌケモレなく、全て抽出します。図の例では、表現は少し異なるものの同じ内容の文章群が自動的に抽出されています。
少数意見に、どんな内容があるのかを予め知る事はできませんし、毎月その内容は異なります。こうしたデータに対し、「全件マッチング」は類似する文章を全て抽出します。但し、システムは「似ている話題」を抽出しますが、「大事な話題」を判別するのは分析者です。システムと人間が協調作業を行う事で、初めて少数意見の分析が実現できるのです。