テキストマイニングの手法
知識発見の支援
1)KDD(Knowledge Discovery in Databases)の進展
1990年代の後半より、DWH(Data Wear House)の構築が進み、データマイニングが普及するにつれ、知識発見のプロセスや支援ツールを含めて、知識発見活動そのものを研究対象とする活動が進みつつある。最大の国際学会としては、ACM(Association for Computing Machinery)のSIG-KDD(ACM Special Interest Group on Knowledge Discovery and Data Mining) があり、1996年より毎年開催されている。その中心的な研究対象は大規模なデータマイニングのアルゴリズムの研究にあるが、最近はテキストマイニングを含めた幅広い知識発見に関する研究発表が行われている。
KDDとは、大量のデータベースの中から有意な情報を掘り出し、知識を発見する事を指している。
このプロセスは、データマイニングでもテキストマイニングでも共通である。異なるのは、「マイニング」で用いられる手法であり、前者がアソシエーション分析(バスケット分析)、決定木等の分析手法を採るのに対し、後者はクラスタリング、カテゴライズ等の自動分類手法を活用するものである。ここで、重要なのが「抽出あるいは解釈された特徴」であり、分析結果にどの様な意味があるのかについての解釈や評価のプロセスが、必須となっている事である。つまり、多数の分析結果の中から、現実的に見て意味のあるものを評価し、その中で最も実用価値の高い結果を抽出する必要があるが、その評価手法については個人のスキル(当該業務と分析能力の両方)に依存しているのが現状となっている。
テキストマイニングにおいても、この点は同様であり、同一のデータを使用しても、様々な分類結果が存在し得るが、その分類項目を決めるのは分析者の視点であり、その視点の優劣が結果の有用性を左右する事になる。この意味で分析者は、対象業務に十分精通していると同時に、マイニングツールの特徴を把握し、分析意図を確実に反映させられる能力が必要となる。
ここでは、この能力を「マイニングリテラシー」と呼んで、コンピュータの支援を受けながら新たな知識の発掘を行うスキルを指すと定義しているが、現状ではまだ、技術の詳細や体系化等の整備はなされていない。今後は、知的生産性を向上する上での基本的能力の一つとして、こうした能力は「知識の時代」にふさわしく、しかも企業活動にとって不可欠なスキルとなってゆくものであろう。
知識発見の支援を行う研究開発は、まだ始まったばかりであり、コンピュータ能力の向上と共に急速に進展すると考えられるが、この技術は単に新たなツールの活用手法だけでなく、特に実務への適用ノウハウの充実を必要としている。この点で、「マイニングリテラシー」は企業現場でこそ磨き上げられる新たな能力であると言える。
2)分類の本質:類似性の発見
テキストマイニングの基本は分類機能にあるが、「誰にも役立つ分類方法は存在しない。」(参考文献7-5)のであり、汎用的なのは図書分類くらいのものと言ってよい。例えばあるアンケートに対する他人の分類結果を見れば、誰しもが「自分の見方と少し違う」あるいは「こんな観点から分類すべきでは?」と感じるものである。この意味で、「分類することは思想を構築することだ」(参考文献7-6)との指摘は非常に的を得ている。
テキストマイニングは、こうした様々な観点からの自由自在な分類を支援するものであるが、一般に文書における類似性を判断するポイントは、以下の様に区分されている。(但し、作成者や日付等の属性情報は除く。)
①主題 : 何に関する記述か?
②意図 : 意見(肯定、否定)、質問、要望等の区分
③感情表現 : 怒り、喜び、心配等の区分
④文脈 : 文章間の関連性、ストーリー展開
この中で、①主題と②意図に関しては、現状の技術レベルでサポートできる範囲であるが、③感情表現については既に基礎的な研究段階を終え、実用化が検討されいる状況であり、④文脈については、判断の方法論を含めて、今後の課題となっている。
先に、「分類は人によって、千差万別」と書いたが、だからと言って皆が初めから分類をやり直す事は全くの非効率であり、意見の異なる部分や興味のある対象のみをやり直すだけで、大多数の要望に応える事ができるし、結果の比較検討も容易である。従って、企業での活用を図るには、まずベースとなる分類を共通分類として用意し、それを参照しながら、自分なりの視点の異なる分類を、簡便に実現するのが現実的かつ効率的な活用方法である。
今後、様々な自動分類ツールが開発されると考えられるが、特に重要なのはマン・マシン・インターフェースであり、人間の意向を迅速に反映すると共に、その結果が一目で判る入力&表示方法がポイントとなってゆくであろう。
(2019.05.08 公開)
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。