テキストマイニング用語集

用語一覧

テキストマイニングに関する用語の解説です。

【あ行】

  • 一文

    文章を区切り文字で分割した最小単位。

【か行】

  • 概念検索

    単語の有無ではなく、検索文との類似度で検索をする手法。

  • カテゴライズ

    人が目視して分類した結果に近くなるように、分類条件をチューニングして分析する機能。

  • カバー率

    FAQ分析において、現在のFAQが応対履歴の内容をどの程度カバーしているかを表した指標。

  • 関連度

    文書と文書の類似度を表した指標。完全一致の場合は100%となる。

  • キーワード検索

    単語の有無で検索する手法。

  • 共起性

    文章の中で、単語と単語がどの程度近くに出現しているかを表した指標。

  • 寄与度

    カテゴライズにおいて、重要単語による関連度への重み付けの度合いを表した数字。

  • 区切り文字

    文章を一文単位で分割するためのデリミタ―。

  • クラスタ

    類似した文章をひとまとめにした集団。

  • クラスタリング

    文書を文書間の類似性に基いて、指定した数のクラスタに分類する機能。

  • クロス分析

    自由文の分類結果と属性情報の関連性を分析する手法。

  • クロスマッチング

    2つのデータベースの類似度を分析する機能。

  • コンテキストベクタ

    文書をベクトル化して解析する手法。

【さ行】

  • サブクラスタ

    メインクラスタの下に配置されるクラスタのこと。

  • 参照属性

    クロス分析には使用せず、参照する目的でのみ使用する属性情報(例:ID情報等)。

  • しきい値

    Thresholdと同じ。文書間の一致性の高低をパーセンテージで指定する。

  • 重要単語

    カテゴライズにおいて、関連度に重み付けをするために設定するキーワード。

  • 主題分析

    文書中の名詞と形容詞、動詞の関係を分析する機能。

  • ステム

    自動学習により得られた単語の関連性を数値(データベース)化したもの。

  • ステムソート

    ステムデータベースを検索して関連の高い順に単語をソートする機能。

  • ストップワード

    自動学習の対象にしない単語。

  • 設定ファイル

    カテゴライズの分類ルールを記録したファイル。

  • 全件マッチング

    類似した文書同士のグループを作成する機能。

  • 0ベクトル除去

    自動学習の対象にならなかった単語や表現を除去する機能。

  • 全文

    一文単位に分割する前の、元の文章の状態。

  • ソート

    文書データベースを検索して関連度の高い順に文書をソートする機能。

  • 属性

    クロス分析には使用する、自由文列以外のレコード(例:性別、年代、日付)。

  • その他の山崩し

    どのカテゴリにも含まれない「その他」の件数を減らす手法。

【た行】

  • 代表文書

    クラスタリングにおいて、初期クラスタに表示されている文書。

  • 重複分類

    1つの文章を複数のカテゴリに分類する手法。

  • データベース

    分析の基礎となるデータ。作成時に日付など様々な属性を付与することが可能。

  • テキストマイニング

  • 同義語

    自動学習の際に、同一の言葉として学習させるために設定する単語。

  • トレンド分析

    時系列での傾向を把握する分析手法。

【は行】

  • バッチ機能

    分析手順をテンプレート化し、自動処理する機能。

  • 深堀り分析

    特定のテーマを抽出し、再度、分類をする分析手法。

  • 文書登録

    文書データを読み込み、自動学習し、分析の基本単位であるデータベースを生成する機能。

  • 文単位

    文章を区切り文字で分割した最小単位。

  • ポジネガ分析

    文書内容が前向き(ポジティブ)か、後ろ向き(ネガティブ)かを判定すること。

【ま行】

  • 模範文書

    カテゴライズにおいて、類似文書を抽出するために設定する検索文書。

  • 森を見る技術

    大量文書の全体像を素早く把握する手法。

【や行】

  • 予兆

    件数は少ないが、今後、急増する可能性のある話題(不具合・異変)。

【ら行】

  • 類義語

    重要単語の設定において、同一の言葉として設定する単語。

【英数字】

  • DB

    データベースのこと。

  • Threshold

    しきい値と同じ。文書間の一致性の高低をパーセンテージで指定する。

  • VextCloud

    VextMinerのクラウドサービス版。

  • VextContact

    ベクスト株式会社が提供するFAQ構築ツール。独自のFAQ構築サイクルや、充実した回答支援機能を持つ。

  • VextMiner

    ベクスト株式会社が提供するテキストマイニングツール。文単位の分析や、予兆発見、テーマの深堀りなど多彩な機能を持つ。

  • VextNews

    ベクスト株式会社が提供する情報共有ツール。VextMinerの分析結果をダッシュボードで構成し、閲覧することが可能。

  • VextResume

    ベクスト株式会社が提供する応対履歴入力支援ツール。音声認識結果のテキスト情報を要約し、応対履歴のベース文章を自動生成する。