1. テキストマイニングについて

テキストマイニングでの課題と対応方策

テキスト分析では、以下の2つの課題を解決する必要があります。

課題1:同じ様な意見をどう集めるのか?

「同じ様な」が曲者です。テキストの表現は、それぞれ微妙に異なっているために、「似ている表現」とは何なのか?を判断する技術が必要となります。
VextMinerでは、「森を見る技術」(詳しくは後述します)を用いて、文単位で分析する事により、「表現は異なるが、似ている文章」を的確にグルーピングします。

課題2:分類の粒度(どの程度の細かさまで話題を分けるのか?)

テキスト群を分類する際に、ばっさりと分けるのか?詳細に分類するのか?は、分析者が決める事ですが、どんな分類体系にすべきか?は、予め判っていないものなので、必ず試行錯誤が必要となります。このためにVextMinerでは、「試行錯誤を支援するインターフェース」を用意しており、これを用いて効率的に試行錯誤を行う事で、より良いものを素早く作り上げる事が可能となります。分類体系の生成という作業は、分析者が創造力を発揮するだけでなく、衆知を集めて皆で議論しながらブラッシュアップするのが大事です。

上記の「森をみる技術」と「試行錯誤を支援するインターフェース」の両機能により、「分析者とシステムのコラボレーション」を実現し、初見のデータであっても、自動分類した結果を自由自在に編集して、素早くかつ高精度に分析する事を実現します。

分析手法の比較

<Type1&2の手法>

まず、単語頻度の分析結果から特徴的な単語を目視で抽出し、その単語と相関の高い単語を参照しながら、実際の話題の内容を想像する事が必要で、初めての方には難しい作業です。次に、検索等を行って原文を参照する事で、話題の内容を確認しますが、多くの話題を1つ1つ見つけに行く事が必要となるため、非常に大変な労力を要します。

<Type3の手法>

文単位の分析により類似話題を自動的に分類できるので、どんな話題がどれだけあるのかをすぐに見る事が出来ます。Type1&2の手法の様に、個々の話題を探しに行く必要はありません。全体像を素早く把握するためには、検索ベースの話題抽出方法(Type1&2)では困難で、分類ベースの手法(Type3)を用いて、自動分類する事が不可欠です。
またType3では、「その他」に含まれる少数意見を簡便に分析でき、全件マッチングという独自の分析手法を使って、類似する話題をヌケモレなく全て抽出します。
Type3の手法を用いれば、様々なデータを細かく分類し、「その他」を30%以下(7割は分類されている)にする事で、適切な分析結果を得る事が容易にできます。

分析作業での3大課題(A,B,C)と手法の比較

VextMinerの特長(まとめ)