テキストマイニングの手法
テキストマイニングの基本機能
ここで、テキストマイニングツール「Vextシリーズ」が実現する基本機能について紹介する。本システムは単なる検索ソフトではなく、自動分類機能やイメージ抽出機能等の文書情報分析機能とその結果をビジュアルに表示する機能を備えており、「文書データベースに対する多次元分析ツール」として開発されたものである。
つまり、データウェアハウスに蓄積された数値&文字列データを、OLAP(Online Analytical Processing)ツールやデータマイニングツールで解析する様に、大量の文書データベースを「Vextシリーズ」を用いて自由自在に解析し、新たな発見や業務の効率化を支援する事を目指している。
1)概念検索機能 <関連する文書を的確に抽出>
本機能は、抽出された「知識」を基に概念的に関連性の高い文書を検索するものであり、本システムの中核となる機能である。これまでの様に検索語句に神経質になることなく、思い付くままの質問(ぴったりしなくとも関連のありそうな質問)をするだけで、目標とする文書が検索される。図3-5に検索機能のフローを示す。
まず、各文書は事前に形態素解析された後、文書データベースから抽出された「知識」に基づいて、ベクトル化されて格納されている。(第3章-2参照) 次々と出される質問に対しても同じ様に、形態素解析とベクトル化を行って、各文書との一致度(ベクトルの内積)を計算し、関連の高い順に表示するものである。
<検索事例 Ⅰ: 類義語を含めた検索を実現している事例>
新聞記事を対象として、質問文「ヤワラチャンの復帰についての記事」を入力した場合の検索結果を、表3-1に示す。(表3-1:質問「ヤワラチャンの復帰についての記事」の検索結果)
検索結果の上位5位(表A~E)を示すが、全て田村亮子選手の復帰試合に関するものである。ここで注目して欲しいのは、第1位と第2位には「ヤワラチャン」が載っているが、第3位以降には「ヤワラチャン」でなく「田村亮子」としか記載されていない点である。(表中は一部しか掲載していないが、記事全体でも同様である。)これは本システムが、「ヤワラチャン」と「田村亮子」が非常に関連の高いものであると自動学習した為に、このような検索結果が得られたのであり、通常のキーワード検索では同義・類義語として設定しない限り実現不可能なものである。実際、システム内での「ヤワラチャン」と関連の高い言葉をリストアップすると表Fの様になり、この後、「柔道」、「全日本」、「チャンピオン」と言った言葉が続いている。
<検索事例 Ⅱ : 関連語による検索事例>
この例は、検索対象に質問語は存在せず、関連語だけで検索してきたものである。(表3-2:医療情報での検索事例)質問文は、「ろれつが回らない」であるが、検索対象とした医学書のデータベースには、こうした表現は無く、関連する表現である「発声不全」や「口ごもり」によりヒットしている。なお、この場合の学習時に用いた文書は、医学書と医療関連の新聞記事であり、上記の関連性は新聞記事から学習したものである。この様に、専門用語と日常用語との橋渡しを実現した例としては、他に自治体の文書検索システムがあり、同様の効果を発揮している。
こうした場合は質問語を含まないために、概して関連度は高くはないが、本システムは「当たらずとも遠からず」の文書を検索できており、この様な「質問の主旨に合った文書を検索する機能」は、従来のキーワード検索では全く実現できないものである。
以上より、本検索機能の特長は以下の3点である。
<<簡単入力>>
本システムではキーワード検索とは異なり、質問語の選定に注意を払う必要はない。似たような表現であれば、システムがフォローしてくれるし、質問語句が多い程その意図に近い文書を探し出してくれるので、ユーザーは自然文で思い付いたまま、どんどん入力するだけで良い。これに対し、キーワード検索で質問語を多くした場合は、演算子の選定と質問順序に熟考が必要なばかりでなく、その検索結果は往々にして「対象文書なし」と言う徒労に終わる可能性が非常に高かった。
<<一目で判断>>
検索結果は、質問との関連度の高い順に出力される(Sorting機能)ため、検索の上位だけをチェックすれば良く、すぐに結果がわかる。又、上位から見てゆくと、質問との関連性がどんどん低下してゆくのが明確であり、キーワード検索の様に最後の文書まで見なければ結論が出せないと言う事はない。また、検索対象が長い文書の場合は、どの部分が関連部分であるのかを見つけるだけでも、時間を要する場合があり、この際に用いるのがハイライト機能である。(図3-6:ハイライト機能) 本機能は、文書の各パラグラフと質問との関連度をグラフ表示するもので、これにより文書全体を読まずに、必要な部分(ハイライト部分)だけを見て、効率的に要否を判断できる。特に、特許調査で関連する先行事例や抵触部分を見つける場合に威力を発揮しており、長い報告書も関心のある部分だけ読めば良く非常に効率的である。
<<類似文書も一発検索>>
本システムのユニークな活用として類似文書検索機能がある。これは、サンプルとなる文書全体やパラグラフを質問文とする(選択ボタンを押すだけ)ことで、それに類似する文書を極めて容易に検索するもので、利用範囲の広い機能である。 (図3-7:類似文書検索機能) 現実問題として、検索する際に最も煩わしいのは質問文を考える事であり、本機能を使えば、最初の曖昧な質問で検索された上位の文書で希望に近いものを選択し、次にその文書全体(もしくは関連するパラグラフ)を質問にして検索する事で、非常に容易に欲しい文書群をまとめて検索できる。
2)自動分類機能 <視点に沿った文書分類を迅速に支援>
前項で解説した「文書を概念的に把握する機能」は、検索だけでなく分類機能にも非常に有効であり、むしろ分類と言う「非常に曖昧で、きちんと定義しにくい知的作業」にこそ、その真価が発揮されると言って良い。その効果は次の2点で代表される。
・表現は異なっても主旨の近い文書を、ベクトルの距離情報を用いてグルーピングできる。
・文書ベクトルは300次元で表現されているため、統計数学の手法が、そのまま適用可能である。
1.クラスタリング機能
多次元ベクトル空間の距離情報を用いて、自動分類する方法である。(図3-8:クラスタリング機能) 既に、第1章-4―4で述べた様に、本機能は与えられた文書の全体像を迅速に把握する事が目的であるため、入力条件は非常に簡単で、クラスタ数(メインクラスタとサブクラスタの数)と閾値(一定の関連度以下のものをその他とする)のみである。3000件程度のアンケート情報であっても、1~2分で分析が終了し、各々のクラスタの内容と件数及び、代表語をクラスタマップとして出力する。(図3-9:クラスタリングの例) 各クラスタの上位の内容と数量について、大まかに把握する事を「つまみ読み」と称しているが、この作業をクラスタの分類数を2~3水準変更しながら実施する事で、与えられた文書群の全体像を容易に把握できる。この作業は、非常に重要で、全体を粗く分類したり、詳細に分類したりしながら、与えられた文書を、どの様に分類すべきかについての視点を明確にする事が目標となる。逆に言えば、この分類の視点を発見する作業を支援するのが、クラスタリング機能であると言える。
2.カテゴライズ機能
カテゴライズは、クラスタリングとは異なり、分析者が個々のカテゴリ毎にテーマを決め、システムはその条件に従って各文書を分類してゆくものである。即ち、クラスタリングによって、分析の視点が明確になった状況で、個々のカテゴリについての分類条件を決定し、詳細に分類してゆく。(図3-10:カテゴライズ機能) なお通常は、先程行なったクラスタリングの結果が参考となるため、かなりの比率でクラスタリングでの代表文書をカテゴライズでの模範文書として設定する場合が多い。(図3-11:カテゴライズ結果)
3.分類作業の支援環境(クラスタリングとカテゴライズの統合分析機能)
一般の文書分類作業では、上記のクラスタリングとカテゴライズを組合せて分析する事で、効率的な分類が可能となる。既に、第1章-4-4において、これらの連携機能(図1-10:大量文書の分類支援)について述べたが、再クラスタリングする対象は「その他」だけでなく、全てのカテゴリを再分類できる。 さらに、多重クラスタリング機能(任意のクラスタを選んで、再クラスタリングする機能)も用意されており、クラスタリングとカテゴライズの両機能を自由自在に組合せて、分析者の意図をスムーズに反映した分類条件を設定する事を可能としており、詳細な分類作業を効率的に実行して行く分析環境を実現している。
4.クロス分析機能
一般の顧客情報はテキスト情報のみではなく、各種の属性情報(年齢、性別、使用製品等)を持っている。このため、こうした属性情報との相関をワンタッチで分析・表示できる機能を実現している。(図3-12:クロス分析機能)
この機能により、アンケート分析等では、分析からレポーティングまでの一環した作業を、本システムでサポートでき、従来2~3週間を要していた作業が、2~3時間で完了する事例も報告されている。
3)分析機能
1.想起イメージの抽出(知覚マップ)
これまでは、主に文章全体を取扱う事を主眼として解説してきたが、学習された「単語間の関連度情報」自体も非常に有用な情報である。本システムでは、これを知覚マップと呼んでおり、アンケート分析でのイメージ抽出機能として活用している。(図3-13:知覚マップ) 図3-13の例は、社長100人の年頭の挨拶を分析したものであるが、まず全体を5つのクラスタに分類した後に、クラスタ2に分類されたグループでの知覚マップを表示している。(初めは、代表語が円形に並び、相互の関連度を線の濃さで表示している。) 図より、このグループの代表語は「信頼」、「スピード」、「人材」、「求める」、「変化」等である事が一目瞭然であるが、各単語の位置は自由に移動できると同時に、取捨選択も設定自由となっている。分析者は独自のの視点に基づいて、こうした特徴的かつ相互に関連の高い単語群を抽出して、その位置関係を適切に設定してゆき、最終的にクラスタ2のグループの代表的なイメージを、図中に示すメッセージとしてまとめ、他のクラスタに対しても一連の作業を実施する事により、全体での特徴と代表メッセージをレポートとしてまとめるものである。つまり、この分析手法は、個々の文章にとらわれずに、まず単語の関連性に分解して、そこから共通イメージを抽出するものであり、そのプロセスで分析者のセンス(即ち、抽象化能力)が大きな要素として介入する事を可能としており、分析者とシステムが補完しあって結論を出す点がポイントとなっている。 なお、この点については、次章(第4章-2)でさらに補足したい。
2.スキャッタリング機能:(2D相関の散布図)
本機能は、任意の文書群に対して縦軸・横軸に質問文を設定し、それぞれの関連度に対する分布を表示する。図中の○印が文書を示し、これをクリックすれば、本文が表示される。つまり、縦軸・横軸を自由に変えながら、文書群の傾向や数量を判断し、特徴的な文書を「拾い読み」する事で、文書群の全貌を迅速に把握するものである。これは、アンケートやクレーム情報等の分析作業で、全部を読むことなく、その特徴を判断するのに最適である。(図3-14:スッキャッタリング機能)
以上、本システムがサポートする様々な機能について解説してきたが、従来の分類&分析ソフトは、単にキーワードを設定するだけであり、ビジネス現場の要求に答える事は困難であったのが実態であった。本システムの登場でようやく実用に耐える分類&分析機能が実現したものであり、分析作業の効率を飛躍的に向上する画期的な機能と言える。既に本機能を用いて、苦情・クレーム情報の自動分類、コールセンターでの問い合わせ情報の分析や特許マップの作成等が実稼動しており、これまでは要望があっても中々実現できなかった大量文書の分類作業を、初めて可能としたものである。また、本システムは、人間との協調を基本コンセプトとしており、分析者が必要とする新たな視点の発掘作業をスムーズに支援し、効率化する事を主目的とする「発見支援型システム」であると言える。
(2019.05.08 公開)
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。