ダミー変数とは|リサーチ マーケティング用語集
ダミー変数
ダミー変数とは
ダミー変数とは、0か1の値をとる変数で、元々数値でない性別などの定性的なデータ(名義尺度)を回帰分析の説明変数として扱う際に、「女性=0、男性=1」などに置き換えた数値のことです。
ダミー変数に変換する最大の目的は、統計解析を実施できるようにするためであり、非常に重要な役割を持っています。
英語表記は、dummy variable。
ダミー変数のメリット
主なメリットを2つご紹介します。
1.解釈しやすくなる
カテゴリーに分かれたデータを数値化することで、統計モデルや機械学習モデルにおける結果の解釈がしやすくなります。
2.モデル性能の向上につながる
数値として処理できるようになるため、機械学習モデルの学習効率や精度が高まる場合があります。
ダミー変数のデメリット
注意しなければならないデメリットを2つご紹介します。
1.項目数が増える
カテゴリの種類が多いほど、それに対応するダミー変数の数も増加します。その結果、データの項目(列)の数(特徴量)が増え、モデルが複雑化したり処理時間が増えたりすることがあります。
2.情報が一部欠落する
例えば、「男性」「女性」だけでなく「その他」というカテゴリがあった場合、2つのダミー変数に変換すると、「その他」の情報が欠落することになります。



