#14統計的検定

いよいよ統計的検定です。以下の例題を考えてみましょう。

遼くんが,ゴルフのショットで100m地点を狙うと,100mぴったりにはなかなか落とすことはできませんが,結構うまくて,100m地点を中心にばらついて落とすことができます。遼くんの1000回打った練習の記録を見てみると,きれいな正規分布であることがわかりました。この分布は,平均が100m,標準偏差は5mでした。以下の問を,1000個の乱数を発生させて確認しなさい。

  1. 1000回打った練習記録では,95mから105mまでの間に,何個落ちたことになっているでしょうか?(本来は2次元ですが,一直線上にばらつくと考えてください。)
  2. 90mから110mの間にボールは何個落ちたでしょうか?
  3. 85mから115mの間にボールは何個落ちたでしょうか?
  4. 一番短い飛距離から数えて5個めは何mの距離にあるでしょうか?
  5. 一番遠い飛距離から数えて5個めは何mの距離にあるでしょうか?
  6. 一番短い飛距離から数えて25個めは何mの距離にあるでしょうか?
  7. 一番遠い飛距離から数えて25個めは何mの距離にあるでしょうか?
  8. 一番短い飛距離から数えて50個めは何mの距離にあるでしょうか?
  9. 一番遠い飛距離から数えて50個めは何mの距離にあるでしょうか?
  10. 次の日,遼君が1個のボールを打ちましたが,この日は100mを狙っていたとは限りません。遼君が打った1個のボールが,何mから何mの間に落ちたら,遼君が100mを狙ったと思われるでしょうか?90%の確率で予想しなさい。ただし,標準偏差は前日と同じ5mです。
  11. この日,遼君が打ったボールが110mに落ちました。実は,遼君は100mを狙っていたのに,違うと言い張りました。遼君が100mを狙っていなかったと,うっかりだまされてしまう確率は何%残っていますか?

R Tips

order関数は,ベクトルを小さい順に並べ替えたベクトルの要素番号を返します。例えば,

> d01<-c(100,1,10,5)
> order(d01)
[1] 2 4 3 1

d01の要素は,小さい順に,2番目の要素(1)→4番目の要素(5)→3番目の要素(10)→1番目の要素(100)ということです。d01を小さい順に並べたい場合は,

> d01[c(2,4,3,1)]

ということなので,同じことですが,

> d01[order(d01)]
[1]   1  10  30 100

でできます。3番目に大きな数を探したいときは,

> d01[order(d01)][[3]]
[1]  30

でできます。
quantile関数は,ベクトルの小さい順から,指定した%の地点にある数を抜き出してくれます。

> quantile(1:1000,c(0.05,0.5,0.95))
    5%    50%    95%
 50.95 500.50 950.05

とすると,1,2,…,1000の数を連続変数と見立てた5%点,50%点,95%点を返す。離散変数をそのまま数えて,5%点,50%点,95%点を返すには,次のようにします。

> quantile(1:1000,c(0.05,0.5,0.95),type=1)
 5% 50% 95%
 50 500 950

統計のはなし

確率変数$X$が、正規分布$N(\mu_0,\sigma^2)$に従うとします。この場合、$X$は$\mu_0$を中心として、$\pm \sigma$の間に、約2/3(68.27%)が分布します。$\pm 2\sigma$の間に95.45%が分布します。同じく、$\pm 3\sigma$の間に99.73%が分布します。

$\mu_0-1.645\sigma$と$\mu_0+1.645\sigma$の間に90%の$X$が分布します。同様に、$\mu_0-1.960\sigma$と$\mu_0+1.960\sigma$の間に95%が分布し、$\mu_0-2.576\sigma$と$\mu_0+2.576\sigma$の間に99%が分布します。

今、確率変数$Y$の分散は、$X$と同じで、$\sigma^2$であることが分かっていたとします。このとき、$Y$の期待値$\mu_1$が$\mu_0$と同じであるかどうか、を統計的に検定します。もし、観察された1個の値$Y$が、$\mu_0-2.576\sigma$より小さいか、$\mu_0+2.576\sigma$より大きかったとしましょう。この時、2とおりの考え方ができます、$Y$の期待値$\mu_1$は$X$と同じ$\mu_0$だけれど、たまたま1%未満の珍しい値が得られた、という考え方。もうひとつは、$X$と同じ期待値と考えるのはちょっと無理がある、つまり$\mu_1\neq\mu_0$と考えることもできます。($|\mu_1-\mu_0|>0$とも書ける。)後者の場合、それでもあと1%は$\mu_1=\mu_0$の可能性は残っているので、「有意水準1%未満で$|\mu_1-\mu_0|>0$」と判断します。$Y$が、$\mu_0-1.960\sigma$と$\mu_0+1.960\sigma$との区間の外側だったら、「有意水準5%未満で$|\mu_1-\mu_0|>0$」、$Y$が$\mu_0-1.645\sigma$と$\mu_0+1.645\sigma$との区間の外側だったら、、「有意水準10%未満で$|\mu_1-\mu_0|>0$」と判断します。これが統計的検定の基本的な考え方です。

normarl distribution
観察された確率変数が、どこにあるかで、それが図の分布に従う確率変数がどうかを判断する。

おすすめ