統計学勉強会 第01回

02 - クロス表の分析 - カイ二乗検定・調整済み標準化残差

2018/07/30
井出草平


page01 page02 page03 page04 page05


◆クロス表の分析

全体の分析

セルの分析

◆オッズ比

10は2の5倍。一次のデータの倍数は簡単!
では、クロス集計表のような二次のデータでは?

要因/事象 事象あり 事象なし
要因あり a b
要因なし c d

ア :a
ド :d
レス:/
ブッ:b
ク :c
※オッズ比は、「ad/bc」で求める。
http://yakugoro.com/entry/2016/02/13/154340


Exercise 03

オッズ比を計算する

肺がん有 肺がん無 SUM
喫煙者 100 500 650
非喫煙者 50 800 850
SUM 150 1300 1450

これらもRで計算できる。手計算で行うのもいいが、計算する数が多い場合には、Rでやってしまうのがよい。


その他の計算


◆残差とは

残差は予測値からの離れ具合。
クロス集計表の場合は、予測値との差。


Exercise 04

クロス表の期待値の計算をする。

男性 女性 合計
賛成 a b 25
反対 c d 25
合計 40 10 50

aの期待値は25×40/50
bの期待値は...
cの期待値は...
dの期待値は...

実際には

男性 女性
賛成 30 3
反対 10 7
合計 40 10

男性は予測値より賛成者が(  )く、女性は予測値より賛成者が(     )。
男性・賛成の残差は(    )である。
女性・反対の残差は(    )である。


◇残差のイメージ

「残差」と「誤差」は異なる。

引用元: https://bellcurve.jp/statistics/course/9704.html

◇調整済み標準残差

上の例題では男性が多く女性が少ない。
残差の大きさは、比較できない。
男性の方が大き残差でも、女性の方が大きい離れているかもしれない
注: クロス集計表ではこの2つの値は同じになるため、この説明はやや不適当だが...

調整済み標準化残差は残差の単位をそろえて比較できる形にするというイメージ。

詳しく知りたい人はこちらのページなどを参照統計学的手法の話題 - 生物科学研究所

◆SPSS/PSPPでカイ二乗検定と調整済み標準化残差を計算する

タイタニックの生存者データを使用して、クロス表の分析をする。

練習用ファイル"Titanic.sav"

[分析]→[記述統計]→[クロス集計表]

行に「客室等級」、列に「生死」を入れる。説明する変数は行に持ってくるのが慣例。

カイ2乗検定をチェック。[続行]をクリック。

[セル]をクリック。

調整済み標準化残差をチェックする。[続行]

[OK]を押す。

見るところは、Pearsonのカイ2乗-漸近有意確率(両側)。

検定結果の水準でよく使われているのは以下の3つ。

この場合は、.000なので、0.1%水準で有意な差がみられる。
この数値が小さいほど、確実な関連があると考えられる。
注意: 第一種過誤と第二種過誤(自習)

+は期待値より多く、-は少ないということ。
例えば、乗務員-死亡はプラス6.9であるため死んだ人が多いということ。

標準正規分布の区間推定値と同様の値をとるため。

引用元
http://pro.arcgis.com/ja/pro-app/tool-reference/spatial-statistics/what-is-a-z-score-what-is-a-p-value.htm

解答例:
客室等級と生存に関してのクロス集計表分析をしたところ、カイ二乗検定のP値(P-value)は.000であり、と0.1%水準で有意な差がみられた。セルについての分析では、一等船室の生存の調整済み標準化残差(ASR)は12.6、二等船室のSARは3.5とプラスの値であり、客質等級の中では生存者が多く、三等船室のASRは-4.9、乗務員のASRは-6.9とマイナスの値をとり、死亡者が多いことが分かった。ASRはいずれも0.01%水準で有意な差があった。生存者は一等、二等、三等、乗務員の順で多かった。

◇シンタックスを必ず保存する

マウス操作で分析をすると、何を分析したか忘れがち。1年後に見ると分析の再現ができない。研究ノートを取っておくことが必要。

分析における研究ノートがSPSSではシンタックスと呼ばれるもの。分析の際には[貼り付け]を行い、シンタックスを作成し、シンタックスから実行するのがおすすめ。

[貼り付け]を押すと「シンタックス・エディタ」が起動する。

CROSSTABS
  /TABLES=Class BY Survived
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ
  /CELLS=COUNT ASRESID
  /COUNT ROUND CELL.

結果を出すには該当箇所を選択肢、実行ボタン(再生と同じ形のボタン)かCtrl+Rを押す。RはRun(プログラムを走らせる)の頭文字。

シンタックスはsps形式で保存できる。
データ(.sav)+シンタックス(.SPS)があれば、何度も出力を出せる。出力ファイル(spv)はファイルの容量が大きく、基本的に書き込みができないなど、研究ノートには向いていない。保存すべきではない。研究ノートはシンタックスに書き込むのがよい。保存するのはデータ(.sav)とシンタックス(.sps)。

分析についてメモを取る際にはシンタックスの中に書き込みをしておく。例えば、以下のようにする。

*  客室等級×生存のクロス表

CROSSTABS
  /TABLES=Class BY Survived /* 客室等級×生存
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ /* カイ二乗検定
  /CELLS=COUNT ASRESID /* 調整済み標準化残差
  /COUNT ROUND CELL. /* 丸め

このような形でメモをつけておくと、後から見ても何の分析をしたかがはっきりわかる。

参照: SPSS ヘルプ 利用可能なシンタタックス