テキストマイニングの手法

テキストマイニング手法の比較

最近、テキストマイニングツールが、多くのソフトウェア企業から製品化されるようになったが、その概略の区分のポイントについて紹介する。まず最も重要で解り易いのが、知識の自動習得機能の有無であり、現状ではこの機能を持たないツールがかなり多い。こうしたツールでは分析を始める前に、分析用の辞書を、都度作成して行く必要がある。小規模なアンケートの様に、分析対象となる文書の話題(語彙の多さ)が限定されている場合は、この辞書作成作業は数日で完了できるが、事業所全体の文書を扱う場合等は、事実上不可能な状況となってしまう。従って、分析者に真新しいデータが与えられてから、結果を出すまでのトータルの時間とその作業内容を比較する事が重要であり、第一ステップとして事前準備を全くせずに、どこまでの分析が可能であるかがポイントとなる。

 次に、単語のみを対象とするのか、文章全体を扱うことができるのかが課題である。一部のアンケート分析では、単語のみの分析でも対応可能であるが、一般的には文章全体での処理が出来なければ、分析結果の妥当性が損なわれてしまうのである。つまり単語間の関連が分析出来たとしても、そのコンテキスト(文脈)で実際に発言した人が何人いるかを分析できなければ、その根拠が疑わしいことになる。

 また、自動分類機能では、クラスタリングやカテゴライズの融合機能等による、分析環境の充実が、実務を効率的に行なう上でのキーポイントとなるが、この点は多少でも、分析業務を実施すれば、容易に判断できるので、まずは自社のデータによる分析トライアルを勧めている。

 4点目は、システムのメンテナンスに関する作業の容易さである。定常的に用いられるシステムでは、メンテナンス作業は非常に重要で、例えば各カテゴリの調整、追加等の作業が容易に実施可能か否かをチェックする必要がある。前述の辞書作成方式では、こうしたメンテナンス作業も非常に時間を要する事になり、実務担当者の負担および整合性の維持など現実的には解決困難な場合が多い。

   全体として、テキストマイニングは実務に立脚した技術なので、現場での評価が最も重要である。技術的には、現在急速な進化を遂げている最中であるため、外部からは骨格が不明瞭な技術分野であると判断されがちだが、実際の企業での活用状況は現場の評価をそのまま反映している。本書では、この観点から第6章で、多くの先進企業における現場の声を、できるだけ直接的に伝えようとしており、判断材料として寄与できる事を期待している。

<< テキストマイニングコラム 目次へ戻る

(2019.05.08 公開)

本コラムは、2002年リックテレコム社出版 石井哲著作「テキストマイニング活用法 顧客志向経営を実現する」から引用しています。
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。