#11カイ二乗分布

正規分布の続きです。標準正規分布$N(0,1)$は、平均を0として、$(-\infty,\infty)$に亘って分布する、富士山みたいな形をしていましたが、この分布から発生させた正規乱数を2乗した値の分布は、どんな分布となるでしょうか?

  1. 標準正規乱数を10000個発生させ、d01に代入しなさい。
  2. d01の10000個の乱数をそれぞれ2乗して、d02に代入しなさい。
  3. d02の密度分布を描きなさい。
  4. 上の分布と自由度1のカイ二乗分布の確率密度の分布を描き、比べなさい(軸を揃えること)
  5. 標準正規分布を10000個発生させ、d03に代入しなさい。
  6. d03の10000個の乱数をそれぞれ2乗して、d04に代入しなさい。
  7. 標準正規分布を10000個発生させ、d05に代入しなさい。
  8. d05の10000個の乱数をそれぞれ2乗して、d06に代入しなさい。
  9. d02とd03とd04のそれぞれれのi番目(i=1~10000)のどおし足して(d02+d04+d06)、d07に代入しなさい。
  10. d07の分布がどうなっているか、密度分布で確認しなさい。
  11. 上の分布と自由度3のカイ二乗分布の確率密度分布を比較しなさい。
  12. curve関数を使って、自由度1~自由度5のカイ二乗分布を重ね描きなさい。
  13. d01とd03とd05のi番目(i=1~10000)の3つの数値の平均値を求め、d08に代入しなさい。
  14. d01とd02とd03のそれぞれのi番目の数値(i=1~10000)からd08を引き、それぞれd09、d10、d11に代入しなさい。
  15. d09とd10とd11の30000個の数値を2乗してi番目どおし足して(d09^2+d10^2+d11^2)、d12に代入しなさい。
  16. d12の分布がどうなっているか、密度分布で確認しなさい。
  17. 上の図と自由度2のカイ二乗分布の確率密度分布を比べなさい。

R Tips

dchisq関数は、カイ二乗分布の確率密度を返します。カイ二乗分布は自由度によって変わりますので、引数に自由度も要求します。たとえば、自由度3のカイ二乗分布における3.5の確率密度は、

dchisq(3.5,3)

で求めることができます。
curve関数で、1変数関数のグラフを描くことができることは、以前説明しましたが、dchisq関数のように2つの引数をとる関数の場合は困ります。その場合、一旦、1変数の関数に変換してから、curve関数に入れてやればOKです。たとえば、自由度2のカイ二乗分布の図を書きたいときは、

f01<-function(x) dchisq(x,2)

としてやれば、f01関数は自由度2のカイ二乗分布の確率密度を求める関数として定義されます。そうすれば、

curve(f01,x=c(0,15))

というようにcurve関数が使えます。

カイ二乗分布
0以上~無限大に分布。自由度が高い方が右に頂点をもつ分布です。

[sourcecode language=’c’]
f01<-function(x) dchisq(x,1) f02<-function(x) dchisq(x,2) f03<-function(x) dchisq(x,3) f05<-function(x) dchisq(x,5) f10<-function(x) dchisq(x,10) f20<-function(x) dchisq(x,20) curve(f01,x=c(0,25),ylim=c(0,0.4),col=1) par(new=T) curve(f02,x=c(0,25),ylim=c(0,0.4),col=2) par(new=T) curve(f03,x=c(0,25),ylim=c(0,0.4),col=3) par(new=T) curve(f05,x=c(0,25),ylim=c(0,0.4),col=4) par(new=T) curve(f10,x=c(0,25),ylim=c(0,0.4),col=5) par(new=T) curve(f20,x=c(0,25),ylim=c(0,0.4),col=6) [/sourcecode]

統計のおはなし

確率変数$Z$が標準正規分布N(0,1)に従うとき、$Z^2$は自由度1のカイ二乗分布に従います。

確率変数$Z_1,…,Z_k$が、それぞれ独立に標準正規分布$N(0,1)$に従うとき、

\[
Z_1^2+\cdots +Z_k^2
\]

は、自由度$k$のカイ二乗分布に従います。

さらに、確率変数$X_,…,X_k$が、それぞれ独立に正規分布$N(\mu,\sigma^2)$に従うとき、$\bar{X}$を、$X_1,…,X_k$の$k$個の平均として、

\[
\frac{(X_1-\bar{X})^2}{\sigma}+\cdots +\frac{(X_k-\bar{X})^2}{\sigma}
\]

は、自由度$k-1$のカイ二乗分布に従います。ちょっとややこしいですが、統計学では、これが一番よく使います。

おすすめ