テキストマイニングの手法
文書情報処理の歴史
文書情報処理技術とは、コンピュータと共に発展してきたものであり、元々は1940年代にスタートした機械翻訳の研究にその端を発している。機械翻訳の研究・開発は、現在も精力的に実施されているが、実用レベル(コストと精度)へのターゲットが見えてくるには、まだまだ時間を要すものと考えられている。しかし、その研究過程において自然言語をコンピュータで解析するための基本技術が、開発・実用化されてきており、本書で紹介するテキストマイニングもこうした技術的潮流にある技術である。一般に文書情報を処理する機能としては、検索と分類に大きく区分され、各々の発展の歴史を簡単に紹介する。
1)検索機能
1、キーワード検索
質問語を文字列として認識し、それと一致する文字列を検索する機能である。検索対象として、予め設定されたキーワードを検索するのか、文章全体を検索するのかで大きく区分される。また、文字列の一致度を選択する部分一致方式もあり、この場合は前方あるいは後方からの一致の割合を設定する。
a)付与されたキーワードの検索
学術論文等で見られる様に、文書の特徴を表すキーワード(数個程度)を事前に選定・登録しておき、検索する際には登録されたキーワードを文字列一致で検索するものである。コンピュータの処理能力が大きくなかった1970~80年代において、多くの企業で活用された。Boolean演算(AND、OR、NOT)ができるのは当然としても、設定されるキーワードの良否が検索結果に大きな影響を与えるため、現在では、余り用いられていない。
b)全文検索
1980年代以降に主流となった検索方法で、コンピュータの処理能力の増大により、文章全体を検索対象として質問語の有無を検索するものである。インターネットの普及に伴って、Webサイトの検索ニーズが高まり広く普及しているが、使いこなすにはスキルを要する事も事実である。質問キーワードの選定には注意が必要であると同時に、検索結果が大量になる場合が多く、全体を見通す事が困難である。
2、概念検索
自然文で質問を入力して、関連の高い文章を検索するものであり、1990年代の後半から研究・開発され、実用化された新しい検索機能である。単に質問語の有無を検索するのではなく、表現は異なっていても関連の高い文章を検索する機能を持ち、検索そのものが容易になると同時に関連の高い文章が上位にランクされるため、検索したい文章の全体像を捉える事が容易となる。このためには、後述する「知識」を検索システムが保有し、これを活用できる必要があり、このブレークスルーによって実用化が大きく進展したものである。
2)分類機能
1、キーワード分類
アンケートや特許の要約を対象として、複数キーワードの有無を判定して、文書を分類するものであり、19
90年代に実用化が始まった。比較的単純な分類には向いているが、多数のカテゴリーに分類しようとすると、条件設定が極めて困難になると言う欠点がある。
2、概念分類
概念検索機能を利用した自動分類方法であり、表現は異なっていても、類似する主旨の文書をグルーピン
グする機能を持つ。分類する数を指定して自動分類させるClustering機能と個々のテーマを設定して分類させるCaregorize機能の2つがあり、1990年代の後半以降で、様々な処理機能との連携・融合で急速な技術的進化を遂げている。
(2019.05.08 公開)
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。