正規分布の続きです。標準正規分布$N(0,1)$は、平均を0として、$(-\infty,\infty)$に亘って分布する、富士山みたいな形をしていましたが、この分布から発生させた正規乱数を2乗した値の分布は、どんな分布となるでしょうか?
- 標準正規乱数を10000個発生させ、d01に代入しなさい。
- d01の10000個の乱数をそれぞれ2乗して、d02に代入しなさい。
- d02の密度分布を描きなさい。
- 上の分布と自由度1のカイ二乗分布の確率密度の分布を描き、比べなさい(軸を揃えること)
- 標準正規分布を10000個発生させ、d03に代入しなさい。
- d03の10000個の乱数をそれぞれ2乗して、d04に代入しなさい。
- 標準正規分布を10000個発生させ、d05に代入しなさい。
- d05の10000個の乱数をそれぞれ2乗して、d06に代入しなさい。
- d02とd03とd04のそれぞれれのi番目(i=1~10000)のどおし足して(d02+d04+d06)、d07に代入しなさい。
- d07の分布がどうなっているか、密度分布で確認しなさい。
- 上の分布と自由度3のカイ二乗分布の確率密度分布を比較しなさい。
- curve関数を使って、自由度1~自由度5のカイ二乗分布を重ね描きなさい。
- d01とd03とd05のi番目(i=1~10000)の3つの数値の平均値を求め、d08に代入しなさい。
- d01とd02とd03のそれぞれのi番目の数値(i=1~10000)からd08を引き、それぞれd09、d10、d11に代入しなさい。
- d09とd10とd11の30000個の数値を2乗してi番目どおし足して(d09^2+d10^2+d11^2)、d12に代入しなさい。
- d12の分布がどうなっているか、密度分布で確認しなさい。
- 上の図と自由度2のカイ二乗分布の確率密度分布を比べなさい。
R Tips
dchisq関数は、カイ二乗分布の確率密度を返します。カイ二乗分布は自由度によって変わりますので、引数に自由度も要求します。たとえば、自由度3のカイ二乗分布における3.5の確率密度は、
dchisq(3.5,3)
で求めることができます。
curve関数で、1変数関数のグラフを描くことができることは、以前説明しましたが、dchisq関数のように2つの引数をとる関数の場合は困ります。その場合、一旦、1変数の関数に変換してから、curve関数に入れてやればOKです。たとえば、自由度2のカイ二乗分布の図を書きたいときは、
f01<-function(x) dchisq(x,2)
としてやれば、f01関数は自由度2のカイ二乗分布の確率密度を求める関数として定義されます。そうすれば、
curve(f01,x=c(0,15))
というようにcurve関数が使えます。

[sourcecode language=’c’]
f01<-function(x) dchisq(x,1)
f02<-function(x) dchisq(x,2)
f03<-function(x) dchisq(x,3)
f05<-function(x) dchisq(x,5)
f10<-function(x) dchisq(x,10)
f20<-function(x) dchisq(x,20)
curve(f01,x=c(0,25),ylim=c(0,0.4),col=1)
par(new=T)
curve(f02,x=c(0,25),ylim=c(0,0.4),col=2)
par(new=T)
curve(f03,x=c(0,25),ylim=c(0,0.4),col=3)
par(new=T)
curve(f05,x=c(0,25),ylim=c(0,0.4),col=4)
par(new=T)
curve(f10,x=c(0,25),ylim=c(0,0.4),col=5)
par(new=T)
curve(f20,x=c(0,25),ylim=c(0,0.4),col=6)
[/sourcecode]
統計のおはなし
確率変数$Z$が標準正規分布N(0,1)に従うとき、$Z^2$は自由度1のカイ二乗分布に従います。
確率変数$Z_1,…,Z_k$が、それぞれ独立に標準正規分布$N(0,1)$に従うとき、
\[
Z_1^2+\cdots +Z_k^2
\]
は、自由度$k$のカイ二乗分布に従います。
さらに、確率変数$X_,…,X_k$が、それぞれ独立に正規分布$N(\mu,\sigma^2)$に従うとき、$\bar{X}$を、$X_1,…,X_k$の$k$個の平均として、
\[
\frac{(X_1-\bar{X})^2}{\sigma}+\cdots +\frac{(X_k-\bar{X})^2}{\sigma}
\]
は、自由度$k-1$のカイ二乗分布に従います。ちょっとややこしいですが、統計学では、これが一番よく使います。