テキストマイニングの手法

テキストマイニングの誕生:知識の自動生成機能の出現

1) 数値情報と文書情報での支援機能の違い

まず、数値DB(Data Base)と文書DBに対する様々な処理支援機能について比較してみると、表3-1に示す通り、数値DBに対しては様々な支援機能が実用化されているのに対し、文書DBでは以前からの「文字列検索」とそれを用いた「集合演算機能」しか実現されていない。これではスピーディかつ多角的な視点で文書情報を処理したいという現状の要求に答えられない事は明らかである。

表3-1: 数値DBと文書DBの処理機能の比較

No 処理機能  数値データベース  文書データベース
1 特定項目の抽出 行列、統計等の豊富な解析機能が提供されている。 集合演算(AND、OR、NOT)に限定される。
2 集計・演算 重回帰を始め、多くの解析手法が提供されている。データマイニングではニューロ技術により自動的に相関関係を抽出する手法が脚光を浴びている。 全く開発されていない。
1)序列化 Sorting機能として定着 十分な機能は開発されていない(キーワードの頻度情報による重要度付けが参考となる程度)
2)相関解析 重回帰を始め、多くの解析手法が提供されている。データマイニングではニューロ技術により自動的に相関関係を抽出する手法が脚光を浴びている。 全く開発されていない。
3)自動分類 クラスタ分析、κ2乗検定等の統計手法を活用 全く開発されていない。
3 視覚化 2次元、3次元の多様なグラフ表示機能が標準装備。 全く開発されていない。

しかし技術的には、この壁は極めて高い障壁であった。つまり、これまでは文章や言葉の世界における相互の関連性とは人間だけが定性的に判断できることとされ、コンピュータ処理で数値化できるとは考えられなかったからである。

2) 文書情報を概念的に把握する方法

前述の様にキーワード検索は、質問されたキーワードと言う記号の有り無し情報しか扱っておらず、他に何らの知識も使っていない。従ってこれを越えるには人間が文書を検索・分類する際に、それまでに蓄積した広範な知識を活用するように、検索システム用の「新しい知識」が必要である。しかも、その知識は従来のシソーラスや関連語辞書のように人間が作るのではなく、システムが「自動学習」できないと変化の早いビジネス現場では有効に活用できないと考えられる。 つまり、「賢さと即応性」を兼ね備えなければ、実務で役に立たないと言って良い。(既存のシソーラスや関連語辞書の問題は、その作成が大変だった事だけでなく、メンテナンスが非常に困難であるため、新しい変化に対しほとんど対応できなかった事が、致命的な欠点となっている。)

<言葉の関連度について>
これまで、文書あるいは言葉の関連性を判断するには、言葉の意味を理解する必要があると考えられてきた。つまり、関連性の判断とは言葉の意味を知る人間だけが為しうる高度な抽象化機能(=概念化)であるとされてきた。即ち、馬と牛の関連性を説明する為には足が4本とか蹄があるといった共通点の抽出が必要となるという主張であり、これは全く正しい。それと同時に勿論、現状のコンピュータ技術ではこのような抽象化機能は実現不可能である。しかしながら、我々はここで難しい哲学論議をしようとするのではない。むしろ、子供から大人まで誰もが知っている簡単な事実に目を向けてみようと思う。
例えば、次の様な連想ゲームである。

1) くしゃみ、鼻づまり、マスク、春先に多い、とくれば   : スギ花粉症
2) 病原性大腸菌、食中毒、学校給食 ならば         : O157

上記の例なら、誰もが簡単に答える事ができるし、新聞記事を例にとれば、花粉症の記事には、くしゃみ、鼻づまり、マスクと言った言葉が満ち溢れ、 O157の記事には病原性大腸菌、食中毒と言う言葉が多用されていることが経験的に納得できる。又、逆に花粉症の記事に、病原性大腸菌や食中毒と言った言葉は、まず登場しないし、O157の記事にも、くしゃみや鼻づまりはほとんど関係ない。つまり、各々の記事はそれぞれに関連の高い語群で構成されていると言える。
この特性を言語学上では共起性(Co-Occurrence)と呼び、全ての言語に普遍的に存在する性質の一つである。即ち、関連の高い言葉は、「互いの近傍に、しかも頻繁に出現する」性質を持つ。(参考文献7)
そして、もう一つ重要なのは、上記の関連性(あるいは連想性)は我々にとって非常に明確であるが、日常生活の上で我々はそれらの関連性についての論理的裏付けをあまり意識せずに用いている点である。(例えば、医学知識を持たない我々が、花粉症とくしゃみの因果関係を説明するのは、かなり困難である。)
つまり、冒頭で述べた様な「意味を理解する」事には幾つかの段階があり、その最上位レベルは論理的思考に基づいて事象を解釈する事であるが、最下位レベルでは単に関連の深い現象を想起するだけの「雰囲気的理解」(図3-1:雰囲気的理解の活用)が存在し、我々は日常的にそれらを柔軟に使い分けて、類推したり共通性を判断したりしているのである。
要は、一々理屈を知らなくとも関連の深い事柄さえ知っていれば、実生活で十分役に立ってしまう(?)事は疑いようのない事実である。(残念な事に、これが知ったかぶりの温床となっている事も事実である。)

これらの事は、次の2つの点を我々に示唆してくれると考えられる。

1.検索対象とする文書DB自体に、言葉の関連性を示す情報が含まれている。
2.上記の情報を大量の文書DBから分析できれば、検索・分類に活用できる。

以上の観点に立てば、文書DBから連想ゲームの様に「言葉と言葉の関連度情報」を抽出し、それをテキストマイニング用の「知識」として活用すれば、究極の目標である概念的検索・分類の実現に大きく近づける可能性が見えてくる。そしてこのような「言葉と言葉の関連度情報」(以下これを「知識」と呼ぶ)を、人手を全く介さずに解析するのが、コマツソフト(株)の提供する「テキストマイニングツール:VextSearchシリーズ」である。

<< テキストマイニングコラム 目次へ戻る

(2019.05.08 公開)

本コラムは、2002年リックテレコム社出版 石井哲著作「テキストマイニング活用法 顧客志向経営を実現する」から引用しています。
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。