テキストマイニングの手法
テキストマイニングの概要と活用事例
1)テキストマイニングとは
これまでは、「顧客の声」に代表されるテキスト情報の分析作業は、人力に頼る以外に方法がなかったが、
近年の自然言語処理技術の進展により、その膨大かつ苦渋な分析作業を「スピーディに」しかも「賢く」支援する事が可能となり、
前章(図0-1)で述べた様に従来は数週間を要していた分析作業が、2~3時間で完了すると言った劇的な効果が得られている。
本技術に関しては、第4章において詳しく述べるが、ここではその概要についてコマツソフト(株)が提供するVextシリーズをベースに解説する。
このテキストマイニング技術のポイントは、「文書と言う人間の感性と密着した情報を、如何に違和感なく処理できるか」にあり、
そのための基本情報として、対象となる文書群から「その業務分野における固有の知識(=単語間の関連度を表わす辞書情報)を自動抽出する事」が
ベース技術となっている。この知識を用いる事で、概念的かつ連想的な検索・分類機能と言った基本機能を実現すると共に、
様々な分析結果をビジュアル表示する事で、誰にとっても使い易いソフトウェアとして製品化されてきており、製造業・金融業・製薬業を始めとする
多くの事業分野のトップ企業において、大規模な活用が始まっている。
2)知識の学習機能
人間は言葉の意味を理解し知識として保有するが、コンピュータにも何らかの「知識」がなくては、テキストマイニングを実現できない。ここでの「知識」とは、意味ではなく、単語と単語の関連性(2つの単語は関連の高い言葉か否か?)や文章間の関連性を示すものである。しかもこうした「知識」を自動学習できなくては、人間が一々教える必要があり、現実的なシステムにはなり得ないのである。本システムは世界に先駆けてこうした機能を実現したものであり、共起情報に基づく関連性をニューロコンピューティングと多次元ベクトルを組合せる事で、効率的かつ高精度な知識生成を可能としている。(図1-4:知識の自動学習機能)
この機能による知識習得の事例として、(図1-5:学習知識の変化)に示す。これはWebのニュースサイトでの記事一年間分(約10万記事)を用いて本システムが自動学習した結果を、3年前と1年前とで比較したものである。例えば、「首相」と関連の高い言葉は何なのか?を3年前と1年前とで比較すれば、当然首相の名前が異なっている。また「テロ」では最近の「自爆」、「過激派」と言った単語との関連が高くなっており、「カレー」に関しても3年前は「毒物」、「保険金」であったが、今ではごく普通の言葉との関連性に落ち着いている。さらに、「花粉症」については、3年前も1年前もほとんど変わらない話題の中で使用されている事が判る。
即ち、本システムは与えられた文章群の中から、関連性の高い単語を自動抽出し、これを「知識=辞書」として活用する事を可能としたのであり、これによってテキストマイニングの道が大きく拓かれたのである。
3)概念検索機能
前述の「知識」を用いて、概念検索を実施している例を、(図1-6:概念検索機能)に示す。図は、NRIサイバーパテント社の特許検索システムで使用されているケースで、これは会員企業に対して特許検索サービスを有料で行なっているものである。検索メニューには、キーワード検索と概念検索の2つがあり、本システムは概念検索メニューで活用されている。ここでは、「高速道路において自動車の速度を落とさずに通行料を支払う方法」と言う長い質問文が入力され、その検索結果が関連度順に出力されており、そのトップとなった特許の内容は「有料道路の料金所ゲート等を、グループで通過しようとする車両から迅速に通行料金を収受する方法」であった。即ち、質問語の有無ではなく文章全体での主旨の近さを検索しているものであり、特に専門用語によるキーワードを設定しにくいビジネス特許の検索において、威力を発揮している。
4)自動分類機能
概念検索が可能であれば、内容毎に近い文書をグルーピングする事もでき、これが自動分類機能である。(図1-7:自動分類機能) 自動分類には、クラスタリングとカテゴライズの2通りの機能があり、それぞれに使い分けたり連携して用いるものである。まず、クラスタリングについては、分類する数を指定して自動分類させるものであり、その結果を(図1-8:クラスタリング機能)に示す。この例は、目薬に関するアンケート1369件を5つに分け、さらにそれぞれを3つに区分する様に指示した結果である。第1クラスタ及び第5クラスタでの内容を、表1-2に示す。
表1-2、目薬に関するアンケートのクラスタリング結果(主要な発言内容)
No | 第1クラスタ(209件) | 第5クラスタ(72件) |
---|---|---|
1 | すっきり、さわやかな気分 | 眠気がとれてすっきりする |
2 | 目がすっきり | 眠気が覚める |
3 | 気分的にリフレッシュしたい時 | 目が覚めた感じ |
4 | すっきり潤った感じ | 眠気を覚ましたい時 |
5 | 気分転換になる | 眠気がとれる |
6 | 爽快な気分になる | 眠気を覚ます |
表より、表現は異なるものの内容的に関連が深いとシステムが判断したものが、グルーピングされている事が判る。この場合は非常に短い文章ではあるが、全件を読んで集計するにはかなりの労力を要する。本クラスタリング機能によれば、文書の登録も含めて2~3分でこうした結果を得る事ができ、どんな意見が何件くらいあるのか?といった全体像を極めて容易に把握する事ができるのである。
この様に、クラスタリング機能は簡便ではあるが、反面分析者の意志を反映していないと言う欠点があり、これを補うのが、カテゴライズ機能である。(図1-9:カテゴライズ機能)
カテゴライズは、各々のカテゴリー毎にテーマを模範文書として与える事で、自動分類を行なうものである。
図1-9では、プリンタの不具合について分類した事例を示すが、個々のカテゴリー毎に模範文書や、重要単語、閾値等のきめこまかい設定が可能となっている。この例では、18カテゴリーに分類しておりその結果が棒グラフで出力されており、一番左のものは18カテゴリーのどれにも属さない「その他」である。この場合は、「その他」が600件程度あって、まだまだ細かく区分する必要があると判断されるが、こうした際にはこの「その他」をクラスタリングする事で、19番目、20番目のカテゴリー候補を容易に見出す事が可能となっている。この様な手法をまとめたものが、(図1-10:大量文書の分類支援)であり、クラスタリングにより全体像を把握して、分類方針を決定しカテゴライズにより、分析者の意図を踏まえた分類を実行する。これにより必ず「その他」が出るので、クラスタリングによりさらに細かい分類候補を見出して、カテゴリーを追加してゆく方法をとる。これにより、50カテゴリー程度でも1~2時間で設定し、分析する事が可能となっている。
5)適用事例と少数意見の抽出
上記の手法に基づいて、大量の顧客情報を迅速かつ的確に分析する取り組みが、既に先進企業を中心に実施されており、その一例として、キヤノン(株)での事例を紹介する。(図1-11:コール情報分析システム)
同社では、全世界で年間600万件にも及ぶ品質情報を毎週自動分析し、「どんな機種でどんな品質問題が起きているのか?」及び「その問題は何処で増加しているのか?」等の質問に即答できるシステムが稼動しており、品質管理部門ばかりでなく、役員クラスから設計・営業・マーケティング部門のマネージャーまでが全社で情報共有する事で、「品質No.1企業」を目指した全社活動を支援している。
このシステムでは、コールセンターに寄せられる顧客からの問合せ情報(不具合、クレーム、要望、苦情等)を、人手でコード化するのではなく、前述のテキストマイニング技術を用いて「顧客の生の声」を内容別に詳細なカテゴリーに自動分類しており、その結果を様々な切り口(機種別、時間別等)でドリルダウンするために、OLAPツールを用いている。最もマクロには、国別のクレームの発生状況となるが、これを製品別や日時別等で詳細に絞り込む事ができると同時に、最終的に「どの機種で、どんな内容のクレームが何件あって、その推移がどの様になっているか?」を、即見る事ができるシステムとなっている。このシステムにより、様々な品質問題についての共通認識が得られたと同時に、世界市場で発生しつつあるクレームを初期段階で発見し即時対応する事が可能となっている。
ここで、従来おこなってきた人手によるコード化方法は、判断基準の統一性及び最新情報への対応性の点から、世界的規模で実現する事は困難であると同社は判断しており、多様化する一方の製品と複雑な機能に即時対応するには、テキストマイニングによる方法が最善であるとしている。テキストマイニングの特長の一つに分析結果の統一性があり、個々人の主観に依存しない分類ができる点が評価されたものである。
実際の分析事例を、(図1-12:分析事例)に示す。これは、あるプリンタの不具合を10月、12月、2月に渡って分析したものであり、各不具合の推移が容易に判断できる。大きな不具合は2件であり、それ以外の件数は少ないが、中には増加し続けているものが4件あり、要注意である。ここで、「その他」は全体の30%程度であるが、この中には数は少ないが、今後の大きなクレームの芽になるものが存在している可能性があるため、同社の品質本部では、この「その他」を特に重点的に分析している。(図1-13:「その他」の分析事例)
図では、12月に867件、2月に661件をクラスタリングしている。12月では、時節柄年賀状に関する問合せが多く、特に問題はなかったが、2月では「CD-ROMが読みこめない」、「白紙が1枚でる」と言ったこの機種では今まででなかったクレームが発生している事が判明している。この様に、全体が5000件程度のデータの中から、数件~十数件の新たなグループを効率的に発見する方法として、実務で活用されている。
前述した、少数意見への対応手法はこうしたやり方であり、まず主要な意見をカテゴライズにより、区分しておき、残りの「その他」にある少数意見をクラスタリングで効率的に発見するものである。
(2019.05.07 公開)
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。