20230719
Excelを使った男女間賃金格差の分析
以下では、分析の具体例として、ある架空の企業の賃金データを用いることにします。これは安藤がそれらしい数字を適当に設定したものであり、現実のデータではありません。
【1、データの準備】
正規雇用労働者として(営業職以外は)、総務部20人、人事部10人、法務部10人、経理部10人が働いているとします。また男性は31人、女性は19人で合計50人です。賃金と性別の情報だけでは不十分なので、必要な情報を集めて整理します。
今回は年齢、勤続年数、性別、部署、学歴、(年間総支払い賃金と労働時間から計算した)時給の情報が利用できるとしましょう。
他には、職種、職位、資格などの情報も使えれば有益ですが、必ずしも全てが揃っている必要はありません。
必要なデータをエクセルにまとめます。欠落しているデータについては補完を試みましょう。
正しいデータを調べてきて記入する、似ているデータの平均をとって埋める、またはデータから削除するなどが行われます。
ここまでで分析の元になるデータができました。最初の14人分まではこのような感じになります。
https://gyazo.com/457cc32df19a9f3e17f4555672f5f5a4
ちなみにこの元データから男女の平均賃金を計算すると、男性31人の平均賃金は時給3426円で、女性19人の平均は3095円です。女性の方が賃金が低いですが、これは差別的であると言えるでしょうか。これを今から確認します。
https://gyazo.com/d3ee92f1a1f4ef6522397302701c32e3
【データの整理】
1、続いて、分析が可能なようにするためのデータの整理です。まずは性別や部署、学歴といった数字ではないデータは、ダミー変数に置き換えます。
ダミー変数は、基準となるものがゼロで、見たい属性を1とします。
性別については、男性を0として、女性ダミーとして、女性のところだけ1にします。
部署については、総務部を基準として、それ以外の部署ダミーを設定します。
学歴は、大卒を基準として、それ以外の学歴ダミーを設定します。
https://gyazo.com/2a698fb1b7aed2927ab30ce1b3a63c8d
2、分析に必要なデータを計算します。
まず賃金のデータは対数化しましょう。元の時給データが、例えばK2に記入されているとき、空いている行の適切なところ(ここでは隣のL2のところ)に「=LN(K2)」と記入します。
二乗の項を利用する項目(ここでは勤続年数)は二乗を計算します。元の勤続年数データが記入されている(B2)の隣に一列を新たに作って、C2のところに「=B2^2」すれば良いでしょう。
https://gyazo.com/64cdd3aa0f9bda093ac28201aee5cd69
【分析を行う】
エクセルの上部にある項目から「データ→データ分析→回帰分析」のように、回帰分析のツールを選択します。
https://gyazo.com/66972b49a4af73a7a8b3b8a54c22170e
そして入力Y範囲のところに対数をとった賃金のデータに該当する部分を記入します。ここではL1からL51までです。L1は、どのような内容かを示すラベルなので、ラベルにもチェックをつけておきます。
同様に、説明変数として用いるデータを記入します。ここではA1からJ51までです。
https://gyazo.com/7d96f0da2426e294d72d4c9a8367ad87
OKを押すと、結果が別のワークシートに書き出されました。
https://gyazo.com/a864d06b9e32ea6c3c49365ae1cff96b
【結果の解釈】
まず注目していた女性ダミーですが、係数は-0.035ということで、女性だと(男性と比べて)賃金が3.5%低いという数字になっていますが、P-値は0.142ということで統計的に有意な結果とは言えません。
これに対して、この企業の賃金はほとんど年齢で決まっていると解釈することができます。年齢のところの係数は0.028であり、P-値も1%よりもとても小さい値なので統計的に有意(=偶然とは思えない)になっています。年齢が1歳増えると、時給で見た時の賃金が2.8%上昇するということです。
他に有意なものがないかP-値を確認すると、0.05以下(5%有意)なものは高卒以下ダミーがあります。大卒に比べて高卒だと賃金が7%低いことがわかります。また基準を少し緩くして、10%有意で考えて見たとき、短大卒ダミーが有意になっています。大卒と比べて短大卒だと、賃金が9.0%低いということがわかります。
補正$ R^2は0.946なので、当てはまりは非常に良いことが分かります。
結果として、この企業は、年齢が高く勤続年数が長い社員に男性が多いことから、男性の方が平均的な賃金が高くなっていることが分かりました。
このように単に平均賃金を見るだけではわからない性別による賃金の違いが、どの様な要因で説明できるのかを理解することは、現状の把握だけでなく、今後の対応を考える上でも有益です。
【課題】
今回の分析では、労働者の年齢と勤続年数の両方を説明変数に入れてしまっています。しかし日本の正社員を考えると、勤続年数が長い人は当然年齢も高いという高い相関があり、多重共線性という問題を避けるためには本来は両方をモデルに入れることはできません。そこで年齢を取り除いた残りの説明変数で分析をやってみましょう
まず「データ→データ分析→回帰分析」のように、回帰分析のツールを選択するところまでは先ほどと同じです。
https://gyazo.com/cc6d407e8f8cc29af1dc8a94c8cda6d9
被説明変数を表す「入力Y範囲」は先ほどと同じで良いですが、説明変数の「入力X範囲」が変わります。上の写真ではA1からJ51までを選んだ状況ですが、このA1をB1に置き換えれば、年齢をのぞいた残りのデータで分析することになります。
そこだけ書き換えてOKを押しましょう。そうすると次のような結果が表示されるはずです。
https://gyazo.com/463ee83aa6e36f5a816e856e9703d873
先ほどの年齢も加えた分析と比較して、どのような点に違いがあるでしょうか。考えてみましょう。