• 運用アドバイス

テキストマイニング初心者が失敗する3つのポイント

テキストマイニング初心者が失敗する3つのポイント
テキストマイニング(テキスト分析)の必要性が浸透しつつある昨今、自社やSNSなどのデータを対象に分析に着手する企業も増加傾向にあります。

一方で、テキストマイニングに特化した部署を持つ企業は少なく、お客様接点を持つ部署やマーケティング関連部署、人事部などで、通常業務の傍ら分析業務を行うケースが散見されます。

では、ある日突然あなたの部署に分析業務が舞い込んできたら…?
「どのような進め方で分析を行えば、問題なく報告書を作成できるのか」と頭を悩ませることになるでしょう。

今回はそんな分析初心者に向けて、失敗しがちな3つのポイントについてご説明します。

失敗ポイント1

綺麗に分類することに囚われる

今までにデータ分析をしたことがある、もしくはExcelなどで集計を行った経験がある方は、「全てのデータには何らかのラベルが付く(=必ずどこかに分類される)」ことを意識して作業していたのではないでしょうか。

数値データや男女比、年代別などの集計を行う際はその考え方で問題はありません。
ですが、テキストを分析の対象とした場合は、より柔軟な思考が必要とされるシーンが発生します。
例えばお菓子についてのレビューをSNSから収集して分析を行うとした場合、「おいしい」「まずい」などの意図が明解な表現は、それぞれ「ポジティブ/ネガティブ」に切り分けることが出来そうです。

では「おいしいけどパッとしない」や、「私の口に合わなかっただけで友達はおいしいと言った」などはどうでしょう。ポジティブ/ネガティブに切り分けることは難しく、両方の要素を含んだ、どちらとも捉えられる表現と言えそうです。このような場合、テキストマイニングでは「重複分類」を行うことを推奨しています。

すなわち、ポジティブ/ネガティブどちらにも適合する話題としてダブルカウントを行います。
これにより話題の発生件数で分析を行うことができ、分析者の意図により分類に偏りが出てしまう事態を避けることができます。

失敗ポイント2

全ての話題を分類してしまう(「その他」を作らない)

また、分類の過程で「どこにも分類されない(=その他)話題」が必ず発生します。
「分析を行う上では数値化がなにより重要なんだから、全てのデータをきちんと分類して定量化しないと…」という思いに固執してしまうと、せっかくの貴重かつニッチな意見が他の主要な話題に紛れ込み、結果として見失ってしまうことに繋がります。

テキストを分析する際は、少数の貴重な意見はそのまま「その他」として残しておき、主要な話題とは切り分けて分析を行うことで、「大多数の人は話題にしていない新たな話題」を報告することができます。

「少数の話題なんて、報告する必要あるのかな…?」と思う方もいらっしゃるかもしれません。
少数の話題は少数であるからこそ価値があります。
時には思いも付かなかった新商品のヒントになり、また時には炎上しそうな危険な話題の発見にも繋がるため、少数の内に把握しておくことが肝要です。

失敗ポイント3

数値だけを並べたレポートを作る

なんとか納得できる分析結果が出た後、「数値だけを並べたレポート」を作ってしまうことは避けるべきです。

「今月は先月に比べてA商品に関する話題件数が5%上昇しており、リニューアルに関する話題が最も多く全体の40%を占めます。」と書かれているレポートを見ても、報告を受けた相手の反応は芳しくないでしょう。予想の範囲を出ない数値の増減であれば興味を失われてしまったり、「こんなの大体分かっているよ」と突き返されてしまった、という分析者の経験談を耳にします。

テキストの分析結果の強みは「生の声を伝えられること」です。
数値も勿論重要ですが、実際にどのような表現や温度感で語られているか、実データのキャプチャーを貼るだけでも臨場感が増加します。
先程の例でも、「今月は先月に比べてA商品に関する話題件数が5%上昇しており、リニューアルに関する話題が最も多く全体の40%を占めます。」と書かれた横に、「お客様の意見として、『ナッツの歯ごたえが増してお得感がある』『パッケージが目立つので手に取りやすくなった』などがあります。」と添え書きをすることで、分析結果に“生っぽさ”を感じさせ興味を引くことができます。

まとめ

分析の初心者がやりがちな3つの失敗ポイントに留意することで、テキストデータから有益な情報を発見・報告することが可能です。

より詳細な情報や事例について知りたい方は、お問合せフォームよりぜひお気軽にお問合せください。テキストマイニングに興味をお持ちの方は、無料のセミナーもございますので、お気軽にご参加ください。

関連製品:VextMiner
関連ワード:自然言語処理