テキストマイニングの手法

テキストマイニングの基本技術

1)「知識」の自動学習

前項での論点をベースとすれば、ここで紹介する多次元ベクトルによる知識習得手法は理解し易いだろうと思われる。この新手法は、本章の冒頭で挙げた2つの技術課題(分類・検索用知識とその自動学習)を同時に解決した画期的な技術であり、米国のHNC社により、1994年に開発された。(参考文献8)
その特長は、「検索に必要な知識は文書データベース内に存在している」と言う新しい視点であり、その「知識」を最新の自然言語処理技術とニューロ技術で抽出するものである。言うまでもなく、この技術の最大の成果は言葉と言葉の関連度を数値化したことであり、そのポイントは以下の3点である。

1.ある事象に関する「知識」は、それと関連の深い語群から成り立っており、連想ゲームに似ている。この「言葉と言葉の関連度情報」を検索用の「知識」として用いる事で、概念的な検索・分類が可能となる。

2.この「知識」は、文書DB内での言葉の共起性に基づいて抽出でき、本システムでは多次元ベクトル空間でのニューロによる学習システム”により、コンピュータが自動学習する。

3.単語は多次元ベクトル空間上(約300次元)に配置され、類似する言葉は同じ方向を向く様に学習が進み、ひとつの集合を形成する様になる。各々の集合は、上記の連想クイズの様に互いに関連の深い語群から成り立っており、ある概念に対応している。(図3-2:ベクトル空間での言葉の分布)

一例として、新聞記事(1年間分:130MB)の場合を取り上げると、本システムは、そこに出現する約10万語(名詞、動詞、形容詞等)間の関連度を学習することになる。そのプロセスは、表3-2の様なアナロジーでイメージすると理解し易い。つまり、広大な宇宙空間の中で、初めは均等に分布していた星(=単語)が、関連の高いもの同士で多く集まって銀河(=分野)を形成してゆく過程に似ている。

表3-2:学習プロセスのアナロジー

区分 単語 概念 分野 全コーパス
投手 野球 スポーツ 文書全体
アナロジー 太陽系 銀河 全宇宙

本システムの学習過程(図3-3:学習プロセス)では自動的にインプットされる学習文書を、まず形態素解析により各単語に区分し、助詞や接続詞等の不要な語を除去する。次に各々の文書内での各単語の共起性に基づいて、関連の高い単語同士が同じ方向を向く様に、序々に学習が進み、その集積された結果として星雲の様な濃淡を生ずるものである。この学習プロセスは典型的な多入力・多出力系であるため、本システムで採用しているニューラルネットワークによる学習手法が最適であり、非常に安定的かつ効率的に動作する。

なお、注意すべき点として、このプロセスは事例ベースの学習システムであるため、学習する文書量が少な過ぎる場合には偏った学習をしてしまう可能性がある。そこで、通常は標準的文書量として30~50MB程度(新聞で3~5ヶ月分に相当)を推奨している。(但し、アンケート分析の場合は、対象者の偏った「知識」が有用な場合が多いので、1000件程度でもそのまま学習させる事が多い。)
一例として、本システムが学習した関連度情報を表3-3に示す。共起性に基づいて判断された言葉の関連度が、様々な分野のコーパスにおいて、適切な結果をもたらしている事が解る。
従って、表に示す様に医学関連の文書を与えれば、薬や症状、効果等の医療分野に強い検索知識ができあがるし、金融分野の文献を入力すれば金融情報に詳しい知識が生成されてゆく。この点は任意の精度で検索や分類が可能である事を示しており、非常に柔軟にユーザニーズに対応できるため、従来のシソーラスに代わり得るものとして様々な分野から注目を集めるポイントとなっている。

表3-3:自動学習された言葉の関連度の例(単位:%)

学習コーパス 医療情報 特許情報 コンピューター情報誌
関連語 関連度 関連語 関連度 関連語 関連度
対象語 はしか トランジスタ エレクトロニックコマース
1 麻疹 66.8 ラテラル 81.0 商取引 74.0
2 おたふくかぜ 61.4 マルチエミッタ 80.8 EC 70.0
3 風疹 59.2 PNP 80.1 電子 58.00
4 耳下腺炎 52.1 NPN 78.9 コマース 43.0
5 幼児 48.3 コレクタ 75.1 インターネット 42.0

以上を総合すると、自然言語処理により文書DBを解析して、そこから「言葉と言葉の関連度情報」を最新のニューロ技術を用いて学習することにより、テキストマイニング用の知識を抽出できる事が容易に納得できるであろう。別の言い方をすれば、このやり方は幼児が大量の言語情報から、それらの関連性の有無だけをまず学習する(論理的な意味づけは後回し)プロセスに類似しており、言わば「門前の小僧システム」であると考えられる。

2)文書内容の概念的把握

前項では、本システムのベースである学習機能について解説したが、次にその結果を実際の文書に適用し、その内容を概念的な纏まりとして表現する方法について述べる。従来手法が“単語の有り無し”を評価するのに対し、本手法は“概念的に近いか遠いか”を評価する事に最大の特長があり、まずは従来型のベクトル手法との相違点から明確にしてゆきたい。
従来のベクトル手法とは、文書内に出現する単語の出現頻度をベースにベクトル化するもので、前述の新聞を例に取れば出現する10万語に対応して、10万次元のベクトル空間が必要であった。(参考文献 9)
表3-4に、その基本的なモデルを示すが、要は各文書に出現する単語の頻度データを集計し、それを基に各次元の成分を求めてベクトル化するものである。

<従来ベクトル手法での文書ベクトル>
Dr=∑aiVi 
Dr:文書ベクトル
ai:重み係数(出現有無等)
Vi:単語ベクトル(通常は直交ベクトル)
i :1~n (単語数)

質問文も同様にベクトル化され、例えば“金融ビッグバンと規制緩和について”と言う質問ならば、それぞれの単語(金融、ビッグバン、規制緩和)を含む文書が検索されることになる。

   

表3-4:従来型ベクトル手法の考え方(数値は各文書での出現回数)

単語 経済 金融 ビッグバン 自由化 ・・(10万語)・・ 規制緩和
文書1 ・・(10万次元)・・
文書2 ・・・・・・・・・
・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・・・・ ・・・
質問 ・・・・・・・・・

従って、質問のベクトルも同じ次元数で構成される事になり、データ量が膨大になる点が大きな課題となっていた。又、検索結果が両者の内積値で序列化される点は他のキーワード検索より進歩しているが、実際の検索内容は前述の通り、質問語の有り無しを検索しているだけでキーワード検索と同レベルであり、概念的な検索とは言えないと考えられる。つまり、全般的に言って、従来手法(キーワード検索及び従来型ベクトル法)は、「木(=単語)を見て森(=概念)を見ず」であった。

これに対し、本システムは「森(=概念)を見る」ものであり、個別の言葉に縛られずに全体の方向性や主旨を表現する。即ち、各文書内には様々な単語が出現するが、それらの単語ベクトルは従来タイプの直交ベクトルではなく、事前の学習により複雑な関連度情報を表すベクトルとなっている。(この意味で、本システムの単語ベクトルをContext Vectorと呼んでいる。)従って、明確な主題を持つ文書であれば、その文書内に含まれるContext Vectorは互いに高い関連性を持つため、特定の方向性(複数可)が強調される事になる。そこで、それらの集積値として文書ベクトルを定義すれば、そのベクトルは文書の主題や主旨を代表していると言える。(なお、文書ベクトルも単語ベクトルと同じ300次元で表現される)

本システムでの文書ベクトルは、次式で表される。

<Context Vectorを用いた文書ベクトル>
Dcvr=∑aiCVi
Dcvr:文書ベクトル
ai :重み係数(各文書にわたる出現頻度等)
CVi : Context Vector (学習された単語ベクトルで関連度情報を持つ)
i :1~n (単語数)

ここで、図3-4に示す簡単な例を考える。文書1と文書2は、各々以下の単語から成っているとすると、従来技術では、これらの文書間には共通する単語が存在しないために、2つの文書は無関係の文書であると判断されてしまうのである。

文書1…「ビッグバン、電子商取引」 文書2…「金融自由化、インターネットコマース」

しかしながら、本システムでは事前に学習する事により、「金融自由化、規制緩和、ビッグバン」は関連が高いと学習し、「電子商取引、エレクトロニックコマース、インターネットコマース」も同様に関連が高いと学習していれば、これらの合成で得られる文書ベクトル1と2は、ほぼ同じ方向性を持ち、極めて関連の高い文書であると判断されるのである。
この様に、本システムでは「言葉の有無」ではなく「関連度の有無」をベースとしている事が、概念的あるいは連想的と言われる文書処理を可能としているのである。つまり本手法では、個々の単語が持つ関連度情報を基に、対象文書も関連度で表して文書全体としての方向を捉える事で、「森(=概念)を見る」事を実現している。この機能は検索機能を向上させるだけでなく、自動分類機能や検索・分類結果の視覚的表示機能への発展を可能とした点でも、実に画期的である。

また、もう一つの特徴は、従来ベクトル手法のベクトル空間内では、各軸が各単語で決定されていたため、文書ベクトルの絶対的位置がある意味を持っていたが、本システムでの絶対位置は無意味であり、各単語ベクトルや文書ベクトル間の相対的な位置関係のみが重要となる点である。この様に、絶対位置から相対位置への転換を実現した事が、前述の「言葉の有無」から「関連度の有無」への進化を実現させたのである。この意味で、言語処理分野における「コペルニクス的転回」と言っても過言でないと思われる。

勿論、我々が日常的に行っている、この「概念的把握」にも様々な段階が存在し、「非常に抽象的あるいは論理的な把握」から前述の「雰囲気的な把握」に至るまでの幅広い活動レベルがある。その意味で、ここで言う概念的把握とは「雰囲気的理解」に基づく「雰囲気的把握」のレベルであるが、実務的観点から見ても十分な精度を有しており、既に国内の大手先進企業において、多くの実績を挙げている。

  

又、当然ながら、この概念的把握の精度は、前章で述べた関連度情報の精度に依存しており、学習対象となる文書の質と量を確保する事が最も重要である事は言うまでもない。即ち、本システムは道具に過ぎず、如何にそれが高機能であっても、対象となるコンテンツが十分でなければ、結果として高度な機能は実現できないのである。それは丁度、「楽器と演奏家」に対し、「多くの練習用作品によるトレーニングを課して技術を向上し、演奏会用作品でドラマティックな印象と感動を与える事」と似ている。
米国においては、既にネットスケープ社やデルコンピュータ社で、本技術をベースにメールコンタクトセンタでの自動回答システムを実稼動させているが、こうした能動的な活用が可能となるのも両社が創業以来顧客からの問合せ情報を非常に重視し、数百万件にのぼるQ&Aデータを蓄積・充実してきた事が、成功要因となっているのである。つまり、「コンテンツの充実と先進的ツールの活用」が、今後の情報戦略ひいては経営戦略上の重要課題になってゆくものと予想される。

3)多次元ベクトル空間の次元数について

ここでは、本手法の理解を深めるためにベクトル空間の次元数(約300次元)の意味について解説しておきたい。従来手法の10万次元に対して、300次元とは余りに少ないと考える向きもあると思われるが、この種の考え方は自然言語処理分野では目新しいものの、構造解析の様に大規模マトリックスを扱うコンピュータシミュレーション等の分野では、ごく自然な考え方となっている。
通常300次元のベクトル空間で、直交する軸は300本である。これを文書情報処理に当てはめれば、その各軸は独立に表現すべき言葉や概念に相当する。従って、このままならば300個しか定義できないので、ここで疑似直交(Quasi-Orthogonal)と言う考え方を導入する。(参考文献 10)
詳しくは参考文献に解説されているが、ごく簡単に言うと、直角の定義は90度であるが、実用上から見て89度でもほぼ直角と見なそうと言う考え方である。初期の研究では、1000次元で、90°±4°の場合に、108個以上の擬似直交軸が存在するとの報告(参考文献 10)があるが、最近の研究成果では300次元でも、1015 ~1016個存在すると推定されている。多次元空間は、超球とか超角とか呼ばれる常識を超えた数々の奇妙な性質を持っているが、これはその1つである。開発者の一人であるR. Hecht-Nielsenによれば、多次元空間とは“丸まったヤマアラシ”の様なものであると表現しているが、案外わかり易い(?)喩えである。(参考文献11)
1016個とは1億の1億倍と言う途方もない数であるが、理論的にはこの数だけの独立な言葉もしくは概念を定義できる事になる。人類が持つ膨大な言葉や概念を集めてみても、この程度の容量を確保しておけば十分であろうと推定して決定されたのが、300次元と言う訳である。

  

又、300と言う比較的小規模な次元で、これだけの情報量を扱う事ができる最大のメリットは、自動分類やビジュアルな表示をする際に、既存の手法(統計手法やグラフィック表示など)がそのまま使える点である。
文書情報を、様々な要望に応じて活用したいと言うニーズに本格的に答えるツールとして、本システムは、非常にユニークな発想の下にバランス良く組み立てられたソフトウェアと言えるであろう。




参考文献 7:W. R. Caid and J. L. Carleton, “ Context Vector-Based Text Retrieval”, IEEE Dual-Use Conference, 1994
参考文献 8:Robert Hecht-Nielsen,” Context Vectors”, IEEE World Congress on Computational Intelligence ,1994
参考文献 9:長尾 他、自然言語処理、岩波講座ソフトウェア科学、1996
参考文献 10:Conway, J. H., and Sloane, N. J. A., Sphere Packings , Lattices, and Groups,Second Edition, Springer-Verlag, New York,1993
参考文献 11:Robert Hecht-Nielsen, ニューロコンピューティング、トッパン、1992

<< テキストマイニングコラム 目次へ戻る

(2019.05.08 公開)

本コラムは、2002年リックテレコム社出版 石井哲著作「テキストマイニング活用法 顧客志向経営を実現する」から引用しています。
本書又は本コラムに関する一部あるいは全部について、ベクスト株式会社から文書による承諾を得ずに、
いかなる方法においても無断での引用・転載・複製等を行うことは禁じられています。
※記載されている商品名、会社名など固有名詞は各社の商標及び登録商標です。