テキストマイニング用語集

用語一覧

テキストマイニングに関する用語の解説です。

【あ行】

一文

文章を区切り文字で分割した最小単位。

【か行】

概念検索

単語の有無ではなく、検索文との類似度で検索をする手法。
カテゴライズ

人が目視して分類した結果に近くなるように、分類条件をチューニングして分析する機能。
カバー率

FAQ分析において、現在のFAQが応対履歴の内容をどの程度カバーしているかを表した指標。
関連度

文書と文書の類似度を表した指標。完全一致の場合は100％となる。
キーワード検索

単語の有無で検索する手法。
共起性

文章の中で、単語と単語がどの程度近くに出現しているかを表した指標。
寄与度

カテゴライズにおいて、重要単語による関連度への重み付けの度合いを表した数字。
区切り文字

文章を一文単位で分割するためのデリミタ―。
クラスタ

類似した文章をひとまとめにした集団。
クラスタリング

文書を文書間の類似性に基いて、指定した数のクラスタに分類する機能。
クロス分析

自由文の分類結果と属性情報の関連性を分析する手法。
クロスマッチング

２つのデータベースの類似度を分析する機能。
コンテキストベクタ

文書をベクトル化して解析する手法。

【さ行】

サブクラスタ

メインクラスタの下に配置されるクラスタのこと。
参照属性

クロス分析には使用せず、参照する目的でのみ使用する属性情報（例：ID情報等）。
しきい値

Thresholdと同じ。文書間の一致性の高低をパーセンテージで指定する。
重要単語

カテゴライズにおいて、関連度に重み付けをするために設定するキーワード。
主題分析

文書中の名詞と形容詞、動詞の関係を分析する機能。
ステム

自動学習により得られた単語の関連性を数値（データベース）化したもの。
ステムソート

ステムデータベースを検索して関連の高い順に単語をソートする機能。
ストップワード

自動学習の対象にしない単語。
設定ファイル

カテゴライズの分類ルールを記録したファイル。
全件マッチング

類似した文書同士のグループを作成する機能。
0ベクトル除去

自動学習の対象にならなかった単語や表現を除去する機能。
全文

一文単位に分割する前の、元の文章の状態。
ソート

文書データベースを検索して関連度の高い順に文書をソートする機能。
属性

クロス分析には使用する、自由文列以外のレコード（例：性別、年代、日付）。
その他の山崩し

どのカテゴリにも含まれない「その他」の件数を減らす手法。

【た行】

代表文書

クラスタリングにおいて、初期クラスタに表示されている文書。
重複分類

１つの文章を複数のカテゴリに分類する手法。
データベース

分析の基礎となるデータ。作成時に日付など様々な属性を付与することが可能。
テキストマイニング

「テキストマイニング」についてはこちらのページをご参照ください。
同義語

自動学習の際に、同一の言葉として学習させるために設定する単語。
トレンド分析

時系列での傾向を把握する分析手法。

【は行】

バッチ機能

分析手順をテンプレート化し、自動処理する機能。
深堀り分析

特定のテーマを抽出し、再度、分類をする分析手法。
文書登録

文書データを読み込み、自動学習し、分析の基本単位であるデータベースを生成する機能。
文単位

文章を区切り文字で分割した最小単位。
ポジネガ分析

文書内容が前向き(ポジティブ)か、後ろ向き(ネガティブ)かを判定すること。

【ま行】

模範文書

カテゴライズにおいて、類似文書を抽出するために設定する検索文書。
森を見る技術

大量文書の全体像を素早く把握する手法。

【や行】

予兆

件数は少ないが、今後、急増する可能性のある話題（不具合・異変）。

【ら行】

類義語

重要単語の設定において、同一の言葉として設定する単語。

【英数字】

DB

データベースのこと。
Threshold

しきい値と同じ。文書間の一致性の高低をパーセンテージで指定する。
VextCloud

VextMinerのクラウドサービス版。
VextContact

ベクスト株式会社が提供するFAQ構築ツール。独自のFAQ構築サイクルや、充実した回答支援機能を持つ。
VextMiner

ベクスト株式会社が提供するテキストマイニングツール。文単位の分析や、予兆発見、テーマの深堀りなど多彩な機能を持つ。
VextNews

ベクスト株式会社が提供する情報共有ツール。VextMinerの分析結果をダッシュボードで構成し、閲覧することが可能。
VextResume

ベクスト株式会社が提供する応対履歴入力支援ツール。音声認識結果のテキスト情報を要約し、応対履歴のベース文章を自動生成する。