分散分析(ANOVA)の基本とExcelの詳しい手順を解説!
はじめに
分散分析について、基本概念やExcelでの実践方法を、事例を交えながら分かりやすく解説していきます。
この記事を読んで分かること、できるようになること
●分散分析の概念や、因子・水準など関連用語の意味を正しく理解できる。
●エクセルを使った分散分析のやり方を、画像付きの解説で学び習得することができる。
●分散分析のマニュアル(資料)を無料でダウンロードできる。
分散分析とは
分散分析(ANOVA:Analysis of Variance)とは、 3つ以上のデータがある場合、それぞれの平均値の間に有意な差があるのかないのか、そして差があるとすれば、どの平均値とどの平均値の間に差があるのかを判定する手法(有意差の検定)です。
広い意味では製造業などの品質管理でよく用いられる実験計画法に含まれますが、分散分析としてマーケティングリサーチ分野で広く活用されています。
分散分析の基本
因子、一元配置法、水準とは
下表は、あるスーパーマーケットが「特売情報の折込チラシ」を、4種類の新聞に3回入れて、どの新聞への折り込みチラシが来店の効果があったのかを調査した例です。
因子は一つの要素のことで、ここでは新聞になります。このような一つの因子による分散分析のことを「一元配置法」と呼びます。そして、一つ一つのデータは、水準といいます。
分散分析の種類
分散分析には主に3つの種類があります。因子が一つか二つか、また因子が二つの場合は、各因子の組み合わせごとに複数のデータ(繰り返し)がある場合と、一つのデータしかない(繰り返しがない)場合に分かれます。
一元配置
一つの因子の影響を分析する。
二元配置(繰り返しあり)
二つの因子とその交互作用を詳細に分析する(同じ条件のデータが複数ある)。
二元配置(繰り返しなし)
二つの因子の影響を分析する (同じ条件のデータが一つしかない)。
水準内変動とは
先述したスーパーマーケットの事例の調査目的は、どの新聞の折込チラシに来店効果があったかどうかの検証です。
ここではC新聞の場合を見ていきましょう。(下表は再掲です)
C新聞の3回目のデータは47人で、この47人から全データの平均の41人を引いた(47-41)は(47-43.7)と(43.7-41)の和に分解できます。
(47-43.7)は、C新聞(第3水準)の第3回目のデータが、C新聞の平均からどれ位離れているのかを示しています。これを実験誤差(水準内変動)と呼びます。
もしも実験誤差がないと仮定するなら、3回調査してもC新聞平均は全て約43.7人になる、ということになります。
水準間変動とは
一方、C新聞の平均から全データの平均を引いた(43.7-41)は、C新聞の平均人数43.7人が、全体平均の41人からどれ位離れているかを示しています。これを水準間変動と言います。
全てのデータにおいて、もし実験誤差(水準内変動)のほうが、水準間変動よりも小さければ、統計的に、どの新聞に折込チラシを入れるのかで来店人数は違ってくるということになります。
これを言い換えますと、一つ一つのデータと全データの平均(41)の差(水準間変動)のほとんどを、実験誤差(水準内変動)が説明してしまうなら、チラシの来店促進効果において、新聞間の違いはないということになります。
分散比とは
実験誤差(水準内変動)と水準間変動の比率を分散比と言います。
この分散比の値がかなり大きければ、因子(この調査の場合はAからCの新聞折込チラシ)の効果があるということになります。
このように、因子の効果を平均値の分散を用いて評価することから、この分析方法を分散分析と呼んでいます。
なお、今回の調査結果の分散分析表の分散比は、8.029です。
仮説と対立仮説とは
ところでこの調査における仮説と対立仮説は以下の通りです。
有意水準αを1%とすれば(検定統計量である)分散比8.029は、自由度(3,8)のF(α=0.01)点である7.59より大きい。
つまり仮説H0の下で滅多に起きないことが起きたことになります。
それは最初に設定した仮説が間違っていたのではないかと判断して対立仮説H1を採択する、つまり、折込チラシ販促において、A新聞、B新聞、C新聞、D新聞の母平均に差がある、との結論になるということです。
分散分析で扱うデータの性質
分散分析で扱うデータの前提は下記です。
- 不偏性(誤差の期待値がゼロ)
- 等分散性(各水準内での誤差の大きさが等しい)
- 無相関性(誤差同士は無相関)
- 正規性(誤差は正規分布に従う)
分散分析を行う前に、データをプロットし、水準内でのデータのバラつきがほぼ等しいかどうかチェックするのがいいでしょう。
観測データの値が大きくなるに従って、データのバラつきも大きくなることがよく起きますが、このような場合、データを対数変換すれば等分散になることが多くなります。
また、データが明らかに非対称で正規分布となっていない場合は、クラスカル・ウォリス検定(一元配置の場合)や、フリードマン検定(二元配置の場合)を実行しましょう。
Excelを使った分散分析の手順
分散分析はExcelのデータ分析ツールを使って行うことができます。分析ツールは、Excelの画面で簡単に設定することができるので、ぜひ活用しましょう。
基本操作
1. ファイルメニューをクリック
2. ファイルメニューで「その他」「オプション」をクリック
3. 「Excelのオプション」画面の「アドイン」をクリック
4.「アドイン」画面で「分析ツール」をクリックし、「設定」をクリック
5. アドイン画面で「分析ツール」にチェックを入れ「OK」をクリック(完了)
「一元配置」の分散分析のやり方
下表は、商品Aから商品Cまで3つの商品の売上金額データです。3つの商品の売上金額の平均に有意な差はあるのでしょうか。分散分析を行い検証しましょう。
因子はA、B、Cという商品の種類だけ、つまり因子は一つですので、一元配置の分散分析を行います。
データタブの「データ分析」をクリックすると、「分析ツール(A)」のボックスが表示されます。
「分散分析:一元配置」を選択し、「OK」をクリックします。
「分散分析:一元配置」のボックスが表示されます。
「入力範囲」は表全体、「先頭行をラベルとして使用(L)」にチェックを入れます。
「出力オプション」のデフォルトは「新規ワークシート(P)」ですが、同じシート内に出力するため「出力先(O)」として任意のセルを指定します(ここではE列2行)。
「OK」をクリックします。
「分散分析:一元配置」の概要と分散分析表が表示されました(桁数の多い数字をExcelで表示させるため、いくつかのセルの幅を広げました。また、見やすくするためにシートの目盛線を非表示としました)。
分散分析表のP-値を有意確率と言い、「有意水準が5%の場合、P-値が0.05以下であれば有意差があるとみなせる」ということになります。
表ではP-値は0.001394で0.05を下回っていますので、3つの商品(グループ間)の売上金額の平均に有意な差はあるという結果になりました。
「二元配置(繰り返しあり)」の分散分析のやり方
次に、一元配置の分散分析例の商品Aから商品Cまで3つの商品の売上金額データに、AからCまでの3店舗という因子を加えて分析しましょう。
一元配置の分散分析結果にて、AからCまでの商品間の平均に有意な差はあることがわかりましたが、今度はAからCの3つの店舗という因子が加わります。
因子は2つなので二元配置、1店舗ごとに同じ条件のデータが4件ずつあるので、繰り返しありという分散分析となります。
データタブの「データ分析」をクリックすると、「分析ツール(A)」のボックスが表示されます。
「分散分析:繰り返しのある二元配置」を選択し、「OK」をクリックします。
「分散分析:繰り返しのある二元配置」のボックスが表示されます。「入力範囲」は表全体です。
「1標本あたりの行数(R)」は、1店舗ごとの同じ条件のデータですので「4」を入力します。
「出力オプション」のデフォルトは「新規ワークシート(P)」ですが、同じシート内に出力するため「出力先(O)」として任意のセルを指定します(ここではF列2行)。
「OK」をクリックします。
「分散分析:繰り返しのある二元配置」の概要と分散分析表が表示されました。
表が縦に長いので概要と分散分析表を分けました。
まず、分散分析表のP-値に着目します。
「標本」は、3つの店舗の母平均の差です。0.372474は0.05を上回っているので、店舗間での有意な差はないことになります。
「列」は、3つの商品の母平均の差です。0.000694は0.05を下回っているので、商品間での有意な差はあることになります。
「交互作用」は、店舗と商品という二つの因子を組み合わせたときの母平均の差で、0.051181は僅かながら0.05を上回っているので、店舗と商品の組み合わせは売り上げに影響しているとは言い切れないことになります。
続いて参考までに、概要の平均をグラフ化してみましょう。表側を平均、表頭を商品AからCとして折れ線グラフを作ると、下図の右側にある二つのグラフとなります。
上のグラフでは、商品Aが最も売れるのは店舗Aと店舗B、商品Bは店舗C、商品Cでは3店舗ほぼ変わらないことを表しています。
下のグラフでは、店舗Aと店舗Bで最も売れるのは商品A、店舗Cでは商品Bということを表しています。
このようにグラフにすると結果が分かりやすい場合もあるので、必要に応じて活用しましょう。
「二元配置(繰り返しなし)」の分散分析のやり方
二元配置の【繰り返しあり】の場合、1店舗ごとに同じ条件のデータが4件ずつありましたが、1件しかない場合は、二元配置の【繰り返しなし】の分散分析を行います。
データタブの「データ分析」をクリックすると、「分析ツール(A)」のボックスが表示されます。
「分散分析:繰り返しのない二元配置」を選択し、「OK」をクリックします。
「分散分析:繰り返しのない二元配置」のボックスが表示されます。「入力範囲」は表全体。
「出力オプション」のデフォルトは「新規ワークシート(P)」ですが、同じシート内に出力するため「出力先(O)」として任意のセルを指定します(ここではF列2行)。
「OK」をクリックします。
「分散分析:繰り返しのない二元配置」の概要と分散分析表が表示されました。
ここでは分散分析表のみ使いますので、概要は省略しました。
ここでも分散分析表のP-値に着目します。
まず「行」は、3つの店舗の母平均の差で、0.307822は0.05を上回っているので店舗間での有意な差はないことになります。
「列」は、3つの商品の母平均の差で、0.018889は0.05を下回っているので商品間での有意な差はあることになります。
結論は、「交互作用」がなければ、AからCという商品の種類が売り上げに影響しており、AからCという店舗は売り上げには影響していない、ということになります。
分散分析にまつわる、よくある質問
Q:「分散分析」と「t検定」の違いは何でしょうか。
分散分析とt検定は、ともに平均値の間の有意差の検定ですが、分散分析は平均値が3つ以上ある場合、t検定は平均値が2つの場合の検定です。各データ例は下記の通りです。
Q:分散分析は、SPSS、R、Pythonでも行うことができますか。
はい、もちろんできます。データの形式と操作手順がExcelと近いのはSPSSです。
もし分散分析で使うデータが非対称で正規分布となっていない場合、クラスカル・ウォリス検定(一元配置の場合)を行いますが、 SPSSでは簡単な操作でこの検定を行うことができます。
なおSPSSでは、Excelの分散分析表のP-値はそのまま有意確率として表記されます。
Q:「二元配置分散分析(繰り返しあり)」で、参考として概要をグラフ化していましたが、グラフ化は必須でしょうか。
いいえ、必須ではありません。学術論文などの分散分析結果では、こういったグラフを見かけることがよくあります。
しかし先述の事例においては、商品A~Cと店舗A~Cの売上データについて、Excel上で簡単に比較することができます。よって「店舗Aでの商品A」の売上合計が最も高いことは、すぐに分かります。
提示した二つの折れ線グラフは、売上データの平均値を表していますので、表示する必要がある場合のみ、グラフを作成すれば良いでしょう。
Q:分散分析は、どのような領域でよく使われますか。
特別な傾向はありませんが、分散分析とは平均値間の有意差の検定ですので、学術や、実務の中でも商品開発の研究所など、統計的な正確性が求められる領域(メディカルや医薬品業界、製造業の品質管理など)で使われる傾向が多いことは事実です。
無料ダウンロード『分散分析マニュアル 』
本記事で解説した内容をまとめた資料「分散分析マニュアル~分散分析の基本的な仕組みとExcelを使った分析事例~」は、下記よりダウンロードすることができます(無料)。
おわりに(まとめ)
最後に、ここまで解説してきた内容をまとめました。今一度の確認に活用してください。 |
分散分析(ANOVA:Analysis of Variance)とは、平均値が3つ以上ある場合、それぞれの平均値の間に有意な差があるのか、また差があるとすれば、どの平均値とどの平均値の間の差があるのか、ということを判定する手法です(平均値が2つまでの場合の分析はt検定)。
分散分析の基本は、一つの因子の水準内変動のほうが、別の因子を含めた全データの水準間変動よりも小さければ(分散比が大きくなる)、統計的な有意差があることになる、ということです。
分散分析の種類は3つあり、因子が1つの場合の「一元配置」、因子が2つで各因子の組み合わせごとに複数のデータ(繰り返し)がある場合の「二元配置(繰り返しあり)」、因子が二つでも一つのデータしかない(繰り返しがない)場合の「二元配置(繰り返しなし)」です。
分散分析で最も重要な基準は、Excelの分散分析表のP-値で、有意確率と言います(SPSSではP-値ではなく有意確率とそのままの標記です)。
「有意水準が5%の場合、P-値が0.05以下であれば有意差があるとみなせる」という基準です。
分散分析が使われる領域は、平均値間の有意差の検定という性質もあり、学術や、実務の中でも商品開発の研究所などの統計的な正確性が求められる領域(メディカルや医薬品業界、製造業の品質管理など)で使われる傾向が多いです。
【参考文献・ウェブサイト】
『1からのマーケティング分析 第2版』(恩藏直人・冨田健司 編著、碩学舎、2022年3月)