形態素解析結果のテキスト分析によくある課題とその対策について
テキストを分析するには、まずは文章を構成する最小単位である単語に分割する形態素解析処理を行う必要があります。
形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別する作業である。(wikiより)
入力データ、分析目的によって形態素解析結果ベースの分析は上手くできない場合があります。
今回は、以下の3点の課題とその対策をご紹介します。
1.分析対象品詞のチューニングが煩雑
Mecab、ChaSenなど主流の形態素解析エンジンにはIPA品詞体系で構築されたIPADICが用いられています。分析に不要な品詞を含めて約70種類の品詞が存在しています。
除外品詞の設定は分析全体に影響を与えるので良い結果になるまでのチューニングはとても煩雑です
Vext製品には長年の分析ノウハウに基づいてより汎用的な分析対象品詞が設定されています。分析目的に合わせて対象外品詞を復活することも簡単にできます。
2.未知語によって単語の境界判別、固有表現抽出が困難
近年は音声認識、SNSの発達などが進んでいるため、未知語が多い文章は今後増えていくものと考えられます。音声誤認識、特有の表記、固有表現(住所、数字など)はバラバラに分割されてその形態素解析結果に対して良い分析結果を得られない場合があります。
Vext製品は未知語が多いテキストに対しても高精度な分析ができますが、更に精度を向上するためのストップワード、ユーザー辞書の管理機能も搭載されています。
また、個人情報フィルター機能を利用すれば分析精度も向上できますし個人情報漏洩のリスクも未然に回避できます。
3.単語頻度や共起情報からだけでは類似話題がグルーピングされない
Vext製品では、「森を見る技術」を用いて、文単位で分析する事により、「表現は異なるが、似ている文章」を的確にグルーピングします。文単位の分析により類似話題を自動的に分類できるので、どんな話題がどれだけあるのかをすぐに見る事が出来ます。
文の意味が「理解」できたら、次はどうやって文脈を「理解」できるか、どんな知識を抽出できるかなどさらなる難しい課題が出てくるかと思います。
これらの課題に対してVextの技術力で独自のソリューションを提供しております。
より詳細な情報や事例について知りたい方は、お問合せフォームよりぜひお気軽にお問合せください。テキストマイニングに興味をお持ちの方は、無料のセミナーもございますので、お気軽にご参加ください。