テキストマイニングの手法
テキストマイニングの将来展開
テキストマイニングは、まだ誕生したばかりの技術であり、その基盤となる理論が確固として存在する訳ではなく、この点がデータマイニングと大きく異なる点である。元々、これまで文書情報は人間が読んで整理するしかなかったものを、コンピュータがその作業を支援すると言う、全く新しいサービスとインターフェースを提供するものであり、初めに理論ありきではなく、まず「現場で役立つ」事が至上命令となって、実務先行型で実用化が進んできたものである。このために開発現場においては、様々な試行錯誤を経ながら、具体的な顧客ニーズをまず実現する事が先行し、その後に商品コンセプトとしての統合が図られると言った、後追い現象が起きていたのが常であった。
こうした状況の中で、今まさにテキストマイニングは黎明期を迎えており、急速かつ多様な進化の途上にあると同時に、その大きな骨格が形作られようとしている事も事実である。本書では、この点について様々な視点から解説を行ってきた。
また一般に、文書情報処理作業とは、データ整理や特徴的事象の発見、新しい観点の妥当性判断等を経て、最終的に報告書を作成すると言う一連の業務から構成されているが、テキストマイニングはこの作業全般をサポートするものである。この意味で、コンンピュータと人間との関わりを一歩進めて、より直接的な知的支援を行なう環境と実現手段を提供するものであり、両者の関係における新次元を切り拓く画期的な機能を有するものと言える。
但し、こうした支援作業の内容を個別に評価すれば、テキストマイニング自体が持つインテリジェンスのレベルは、まだまだ低くほとんど乳幼児程度であるのが実態である。(勿論、処理パワーは抜群である。)今後、多岐に渡る知的活動のステップを、これからどれだけ上がって、より高いレベルでの支援ができる様になるかが課題であり、この点についての将来展望を解説したい。
既に、繰り返し述べて来た様に、現状のテキストマイニングは、比較的単純かつ苦渋な文書の整理作業を、分析者に替わって実施している。しかもその結果の判断や、結果の修正を指示するのは分析者であり、あたかもマネージャーが担当者の作成した報告書に対し、様々な指摘や見直し・修正を指示する事に極似している。つまり、人間にとっての情報整理サーバントとしての役目を果たしているのであり、今後は一連の文書情報処理作業(データ分析から報告書作成まで)への統合的支援システムとしての発展が明確になるであろう。
しかしながら、テキストマイニングの目指すものは、あくまでも人間の支援であり、かつてのエキスパートシステムの様に、システムが答えを出し、人間の判断の代わりをするのではない。(筆者の経験からしても、これは必ず失敗する。人間を超えてはならない最大の理由は、正解がないか不明であるからであり、その判断のリスクは必ず人間が負わなくてはならない。)従来の人工知能(Artificial Intelligence)の研究開発では、その多くの研究者達がメインフレームの強力な演算能力の彼方に、見果てぬ夢(即ち、人間と同等以上の判断を行なうマシン)を見てしまっていたのに対し、テキストマイニングは人間の判断や思考の支援を行なう事を基本としており、こうした考え方は知能増幅(Intelligent Amplifier)と言うコンセプトに基づくものである。 この概念は、比較的新しく、パソコンがその萌芽を見せ始めた1960年代に発表されている。(参考文献7-7)
この概念を生み出したのは、D.C Engelbartであり、その基本的な考え方は、「図と文章の構造をコンピュータによって柔軟に操作できるようになれば、問題解決能力を大きく向上でき、さらに高レベルのプロセスにも複合的な効果を挙げる事ができる。」と言うものである。Engelbartは、ウィンドウとマウスの発明者として知られており、我々はその偉大な発明の恩恵に浴している訳であるが、これらの新しいインターフェースがあって初めて、人間とコンピュータとの相互交流が可能となり、コンピュータが人間を支援できる様になったのである。
上記のEngelbartの指摘は、テキストマイニングにもそのまま当てはめる事ができる。ウィンドウやマウス程のインパクトはないにしても、クラスタリングやカテゴライズ等の自動分類機能が、基本となるデータ整理の支援を実現した事により、人間とテキスト情報との関わりが大きく変化して来るものと想定している。実際、多くの顧客において、実務の分析担当者は自由自在に文書情報を処理しているだけでなく、その分析結果を用いてクロス分析やデータマイニングによる統合的分析への展開を実施している。
一般に、文書情報処理作業に対する支援(=知能増幅)機能には、以下のステップが想定され、各々に対しインターフェースの改善を含めて、大幅な機能向上が図られつつある。
今後、テキスト情報処理技術は大きく進展し、知能増幅装置として幅広く展開してゆくであろう。その理由は、コンピュータのハードの処理能力が年々倍化する状況の中で、最もその適用が注目される分野であると共に、人間に対する支援機能として、その波及効果が極めて大きい事による。
そしてその結果、テキストマイニングを中核として、様々な技術との共進化が起きるものと推定される。共進化とは、異なる種族が互いに深く関わり合いながら、共に進化する事を指し、実例としては、顕花植物と昆虫がお互いに複雑に絡み合いながら、多彩な進化を遂げた例が解り易い。(参考文献7-8) 画像認識や音声・音楽情報への展開も模索されつつあり、一見異分野と思われる情報でも類似するアプローチが適用できる可能性も見えてきている。また、音声認識や意味理解、機械翻訳と言った技術も、かなり実用化に近付いてきており、これらとテキストマイニングとはすぐに融合できる分野であり、それらが統合されれば電子秘書が実現される日も近いであろう。
人間が言葉を操り、言葉によって思考する限り、テキストマイニングはより広くかつ深く人間の知的活動を支援してゆくに違いない。
参考文献7-1:コンパックコンピュータ(株)、ニュースリリース2002-7-3
「Alpha Mining Paq」
参考文献7-2:阿久津 聡、石田 茂、ブランド戦略シナリオ、2002 ダイヤモンド社
参考文献7-3:ハーバードビジネスレビュー、顧客サービス戦略、2000 ダイヤモンド社
参考文献7-4:石川慎也、データマイニングの宝箱、http://www5.ocn.ne.jp/~shinya91/
参考文献7-5:西垣 通、思想としてのパソコン、1997 NTT出版
参考文献7-6:池田清彦、分類という思想、1992 新潮社
参考文献7-7:石川 博久、思考・表現・コンピュータ、1998 現代書館
参考文献7-8:Stuart Kauffman、自己組織化と進化の論理、1999 日本経済新聞社
(2019.05.08 公開)
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。