catch-img

「クラスター分析」をわかりやすく解説!やり方と事例


目次[非表示]

  1. はじめに
  2. クラスター分析とは
  3. クラスター分析の種類、使い分け方
  4. ​​​​​​​クラスター分析のメリットとデメリット
  5. 階層型クラスター分析とは
  6. 非階層型クラスター分析とは
  7. クラスター分析にまつわる、よくある質問
  8. 無料ダウンロード『クラスター分析の方法・活用マニュアル』
  9. おわりに

はじめに

ここでは、マーケティング担当者はもちろん、初めてクラスター分析について知りたい方や、復習したい方を対象に、クラスター分析の基礎から事例を交えた分析方法まで、わかりやすく解説していきます。

この記事を読んで分かること、できるようになること

●クラスター分析の基礎を、事例を見ながら理解することができる。
●マーケティング現場で役立つ分析方法が身に付く。
●クラスター分析についてまとめた資料を、無料でダウンロードできる。

\今すぐ資料を見たい/

クラスター分析とは

クラスター分析とは、色々な特性を持つデータ(変数)を、似た者同士で集めて、いくつかのグループに分類する分析方法の総称です。

そのグルーピングされたデータの集まりをクラスターと言い、英語では「cluster=集団、群れ」という意味を持っています。

マーケットセグメンテーションの有効なツールの1つで、類似性の指標」(データ・データ群間の距離)をもとにして分類していきます。

クラスター分析の活用場面

顧客分析市場分析に欠かせない分析方法で、商品開発販売促進に活用されています。

典型的なマーケットセグメンテーションとして、マーケティング用語「STP」のうちの『S=セグメンテーション』と『T=ターゲティング』にあたる、似通った特徴をもつ消費者のグルーピングや、『P=ポジション(調査データでは商品群)』にあたる、 自社・競合商品の「ポジショニング」でも活用できる、とても有用な分析手法なのです。

クラスター分析の種類、使い分け方

クラスター分析には大きく2つの種類があります。
1つは「階層型クラスター分析」、もう1つは「非階層型クラスター分析」で、取り扱うデータの規模によって使い分けます。
データ数の目安は以下の通りです。

・100サンプル以下:階層型
・100〜300サンプル:階層型と非階層型の両方
・300サンプル以上:非階層型

​​​​​​​クラスター分析のメリットとデメリット

メリットは、集計結果を一目でビジュアル化できることです。

デメリットは、各データの出現率がどの程度か、つまり、一つ一つのデータの重要性が、どの程度高いのか・低いのかが分からない点です。

よって分析時には、クラスター分析結果と併せ、クロス集計表やグラフを見ていく必要があります。

また、メリットでもありデメリットでもありますが、【階層型のデンドログラム(樹形図)をどこでスライスするのか】【分類したクラスターのネーミングをどう決めるのか】というフェーズでは、必ず分析者の主観が重要となります

また、非階層型の場合では、【最初の”クラスター数決定のフェーズ”】から、分析者の主観が入ります。

クラスター分析に限らず多変量解析では、ツールが自動的に”答え”を出してくれるわけではなく、ツールによって導かれた結果を解釈するという分析者の主観は重要です

階層型クラスター分析とは

階層型クラスター分析とは、距離の近いデータから似ている同士やデータ群のペアを探し出し、それらを一つの群(クラスター)に統合していく分析方法です。サンプル数が少ない場合によく用いられます

階層型クラスター分析の手法

階層型クラスター分析の手法は主に6種類あり、それぞれ変数(データ)間・群間の距離の測り方が違います

1.最近隣法

クラスター間において、その中の最も近いデータの距離同士で測る方法です。
計算量は少なく済みますが、鎖効果(1つのクラスターに対象が1つずつ吸収されてしまい、新しいクラスターが作られてしまう現象)が起きやすいというデメリットもあります。最短距離法とも言います。

2.重心法

クラスター間の距離を、クラスターごとの重心から測る方法です。

3.最遠隔法

クラスター間において、最も遠いデータの距離同士で測る方法です。最長距離法とも言います。

4.メディアン法

重心法と似ていますが、メディアン法では、1つのクラスターの重心から、2つのクラスターの重心間の中央値までを測ります。

5.群平均法

2つのクラスターに属するデータ全ての対の距離を測り、その平均値をクラスター間の距離とします。

6.ウォード法

クラスターを併合させる際に失われる情報量を最少にするために、重心と個体との偏差の二乗和をとる方法です。
計算量が多くなる点はデメリットですが、データをバランス良く分類することができるため、階層型クラスター分析においてよく使用される手法です。

おすすめの手法(使い分け)

どの手法を使うべきか迷った際は、計算精度が高いと言われている「ウォード法」を使うという傾向が、実務や学術の現場では一般的です。

ユークリッド距離とは

階層型クラスター分析では、変数(データ)間の類似度を測る尺度として「距離」を使い、個体間の距離が近いほど類似度が高いと判断します。そして統計学では、a地点からb地点といった2点間の直線距離を、ユークリッド距離といいます。

ユークリッド距離は、クラスター分析の距離の中で最も一般的な種類です。

他にも「ミンコフスキー距離」「マハラノビスの汎距離」といった種類があります。

階層型クラスター分析の事例

ここからは、5人の被験者を対象にした「性格特性のデータ」を例に、階層型クラスター分析のやり方の事例を解説していきます。

※こちらはアンケート調査データではありませんが、”選択肢が5段階評価の調査票”から得られたアンケート調査結果のデータと同じ扱いです

*手順1

まずはじめに、データを「散布図化」しましょう。
※専用ソフトが行う手順の解説(原理)になるので、実際は各専用ソフトのマニュアル通り操作してください。

*手順2

距離が近い(類似度が高い)変数のペア(対)を探し、1つの群(クラスター)に統合していきます。
クラスター名は「g1」「g2」「g3」とします。

*手順3

デンドログラムでは、低い位置、つまり早いステップで結合している変数同士は「似ている」ということになります。よって、下のデンドログラムでは、bとdは似ているものの、aとeのほうが類似度が高いということになります。
デンドログラムは、どの階層でスライスするかで、クラスターの数も犠牲も決まります。

そしてここから分析担当者による分析作業に入っていきます。

非階層型クラスター分析とは

非階層型クラスター分析とは、事前に決めた数のクラスターにデータを当てはめて分類する分析方法で、デンドログラムのような階層型分類結果を出力しないクラスター分析の総称です。

先述の『階層型クラスター分析』とは対照的に、変数(データ)全体を“眺めながら”似ている同士をグルーピングしたり、あらかじめクラスター数を決めておく必要があります。

ビッグデータなどのサンプル数の多い場合や大規模サンプルを対象とした分析に最適です。

※分割するクラスター数は、分析者が想定する。

非階層型クラスター分析の手法

非階層型クラスター分析の代表的手法は、K-means法(K平均法)です。他に超体積法もありますが、実際には、非階層型=(イコール)K-means法と言ってもいいでしょう。

K-means法とは

K-means法の具体的なやり方の手順は下記のとおりです。

1.任意にまたはランダムに、k個のサンプル(核)を選ぶ。
2.他のデータを、k個の核のうち最も近いものに紐づけしてクラスターに分ける。
3.各クラスターの重心を新しい核とする。
4.各データを最も新しい核に紐づける。
5.この操作を、クラスターの重心が移動しなくなるまで繰り返す。

※ここまでの「非階層型クラスター分析の手法」および「K-means法」の解説は、専用ソフトが行う手順(概念)の解説となります。分析を行う際は、ご自身が利用される各専用ソフトのマニュアル通りに操作してください。

非階層型クラスター分析の事例

ここでは「職業に対する印象データ」を例として、非階層型クラスター分析の事例を解説していきます。

*手順1

まずはじめに、K-means法(K平均法)によるデータ生成をおこないます。
K-means法では「個体」と「それが分類される群の平均」との平方距離の合計が小さくなるように「個体」を分類します。

値は「1.0〜5.0」、群の数は「3」とします。

*手順2

生成されたデータを使い、K-means法による非階層型クラスター分析のアウトプット(散布図の作成)をおこないます。

※データはダミーです。


\今すぐ資料を見たい/

クラスター分析にまつわる、よくある質問

Q:調査票(質問票)は、クラスター分析用に作成する必要がありますか。

作成する必要はありません。
あらかじめ集計を想定した調査票が必要な【SD法】とは異なり、クラスター分析では通常のアンケート調査形式の調査票(質問票)で問題ありません。選択肢も「順序尺度・名義尺度・間隔尺度・非例尺度」のいずれでも構いません。

>>【参考】SD法のやり方|調査設計、分析方法、事例を分かりやすく解説!

Q:クラスター分析は、単独で行うだけでいいでしょうか。

階層型・非階層型ともに、単独で行うだけで問題ありません。ただし、実務や学術の現場では、因子分析を行った後、理解できる因子を次元に含むデータをクラスター分析にかけることもよくあります。
※非階層型クラスター分析の場合、クラスター数の決定の際に因子分析結果を参考にします。
※実務の場合、クラスター数は多くても10以下にすることが一般的です。

Q:クラスター分析も他の多変量解析と同様で、有償の専門ソフトを使う必要がありますか。

エクセルのアドインソフトをダウンロードできたり、CD-ROMがついているマニュアル書籍も市販されていますが、大規模データを扱う場合はもちろんのこと、複雑な計算の精度などを考慮し、エクセル(Excel)統計、SPSS、JMP、Rなど有償の専門ソフトを使うことが一般的です。

無料ダウンロード『クラスター分析の方法・活用マニュアル』

本記事で解説した「クラスター分析」についてまとめた資料は、下記よりダウンロードすることができます(無料)。

おわりに

ここまで「クラスター分析の基礎」について解説いたしました。クラスター分析は、「見えないデータ」を「見える化」してくれる、有能な分析方法で、その結果からはマーケティングのヒントを得ることが期待できます。基礎を理解して上手に役立てましょう!



【参考文献】

『多変量データ解析法 心理・教育・社会系のための入門書』(足立浩平著、ナカニシヤ出版、2006年7月)/『マーケティングで使う多変量かいせきがわかる本ー市場予測・顧客分析・コンセプト開発・価格決定・販促計画等のための分析技術(実務入門)』(酒井隆、酒井恵都子著、日本能率協会マネジメントセンター、2007年2月)/『よくわかる最新データマイニングの基本と仕組み』(岩挟直道著、秀和システム、2019年11月)/『例解 多変量解析ガイド:EXCELアドインソフトを利用して』(内田治、福島隆司著、東京図書、2011年4月)/『課題解決!マーケティング・リサーチ入門』(田中洋編著、リサーチナレッジ研究会著、ダイヤモンド社、2010年)

もっと簡単で、
もっと自由なアンケートを作ろう

「500円」から始められる

セルフ型アンケートツール「Freeasy」

初心者の方には、分かりやすく! 
経験者の方には、高機能でもっと低コスト且つスピーディーに!
500円から始められる自由で簡単なセルフ型アンケートツール「Freeasy」を
さっそく始めてみませんか?

記事ランキング

ページトップへ