Quantcast
Channel: 初心者タグが付けられた新着記事 - Qiita
Viewing all articles
Browse latest Browse all 21081

2群間の検定の選定と計算方法(Wilcoxonの符号付順位和検定)

$
0
0

検定の種類

大きく分けると

  1. パラメトリック:母集団のデータが仮定した分布に従っている場合(正規性や等分散など)
  2. ノンパラメトリック:母集団の分布に決まりはない

の2種類に分類されます.

対応のあるデータ,対応のないデータ

検定をする際には,「対応がある」か「対応がない」かを考える必要があります.

  • 対応がある
    「対応がある」とは,3人に実験を実施したとすると,3人全員が全ての条件の実験を実施することを指します.
    例えば,実験条件が3条件(A,B,C)あった場合,3人全員が全ての条件の実験を行った場合,対応のあるデータとなります.

  • 対応がない
    一方で,「対応がない」とは,3人(D,E,F)に実験をした際,3人それぞれが異なる条件で実験を実施することを指します.
    例えば,実験条件が3条件(A,B,C)あった場合,被験者DはA,Bの2条件,被験者EがA,B,Cの3条件,被験者FがB,Cの2条件の実験を行う場合などです.

2群間の検定の代表的な例

2群間の検定は,パラメトリックかノンパラメトリックか,対応があるかないかで決定します.代表的な検定を以下にあげます.他にも検定の種類はあるので,気になる人は調べてみてください.

 対応のある 対応のない 
パラメトリック対応のあるt検定Studentのt検定
ノンパラメトリックWilcoxonの符号付順位和検定Man-WhitneyのU検定

実際に考えてみる

10人の被験者に条件X,条件Yの実験を実施し,楽しさを5段階のリッカート尺度(1:全く楽しくない―5:非常に楽しい)で評価を行った場合を考えてみましょう.10人のアンケート結果がそれぞれ

被験者ABCDEFGHIJ
条件X4343553252
条件Y2322334323

だったとき,条件Xと条件Yの間に統計的な差が存在するのか調べます.検定方法の選定は以下の観点から行います.

  • 正規性
    正規性の検定(Shapiro-Wilk検定)を行った結果,条件Xは正規分布に従っているが,条件Yは正規分布に従っていないので,今回使用する検定はノンパラメトリック検定となります.

  • 対応のありなし
    今回の例では,10人全員が条件X,条件Yの両方の実験を行っているので,対応のあるデータとなります.

以上より,今回は正規性のない,対応のある2群間の検定である,Wilcoxonの符号付順位和検定を使用します.

Wilcoxonの符号付順位和検定

※この節では検定の計算方法を説明しますが,Rなどの統計ソフトを用いて検定を行う方が楽なので,実際に検定を行う際は統計ソフトを使用することをお勧めします.

まず,各被験者の条件Xと条件Yの結果の差の絶対値Zを取ります.

被験者ABCDEFGHIJ
条件X4343553252
条件Y2322334323
差の絶対値Z2021221131

次に絶対値Zの小さい順に順位付けを行います.同順位の要素が存在する場合は,順位の平均を各要素に割り当てます.例えば,2位が二つ存在した場合,(2+3)/2=2.5を各要素に割り当てることになります.ただし,条件Xと条件Yの差がない,つまり絶対値Zが0となる場合,順位付けは行わず,その分標本数も減らします(今回は被験者Bを除外するため,標本数は9となります).

被験者ACDEFGHIJ
データZ221221131
順位6.56.52.56.56.52.52.592.5

次に,「条件Xのスコア>条件Yのスコア」となっている被験者の順位の合計値Tと,「条件Xのスコア<条件Yのスコア」となっている被験者の順位の合計値tをそれぞれ算出します.

T=6.5+6.5+2.5+6.5+6.5+9=37.5
t=2.5+2.5+2.5=7.5

求めたTとtで,小さい方を検定に使用します.今回はt=7.5が小さいのでこちらを使用します.
これ以降はN数(標本の数)に応じて作業内容が変わります.

  • N数>25の場合
    統計量Wを考えます.
W=\frac{|t-\frac{N(N+1)}4|}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}

この統計量Wは標準正規分布N(0,1)に従うものです.よって,両側検定で有意水準p=0.05の検定(帰無仮説(条件Xと条件Yの間に差がない)が成立する確率が5%以下であるかどうか)を行いたい場合,Wが1.96以上のとき有意差ありとなります.この値は標準正規分布表から求めることができます.

  • N数<25の場合
    統計量WがN数に応じて,下表の数値以下のとき,統計的有意差があると判断します.
N数両側 p<0.05(5%)両側 p<0.01(1%)片側 p<0.05片側 p<0.01
5--0-
60-2-
72-30
83051
95183
1083105
11105137
12137179
131792112
1421122515
1525153019
1629193523
1734234127
1840274732
1946325337
2052376043
2158426749
2265487555
2373548362
2481619169
25896810076

今回の例の場合,N=9であるため,両側検定でW<5以下の場合,有意差ありとなります.
実際に計算してみると,

\begin{align}
W&=\frac{|t-\frac{N(N+1)}4|}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}\\
&=\frac{|7.5-\frac{9(9+1)}4|}{\sqrt{\frac{9(9+1)(2×9+1)}{24}}}\\
&=1.777047
\end{align}

となり,W<5であるので,条件Xと条件Yの間に統計的な有意差(p<0.05)ありとなりました.

まとめ

今回は2群間の検定のやり方について,自分の理解をまとめるためにこの記事を作成しました.
統計ソフトを使用すると上記の計算が一瞬で終わります.
実際に検定を行う際は統計ソフトを使いましょう(笑)


Viewing all articles
Browse latest Browse all 21081

Trending Articles