#13F分布

これも統計的検定によく使う分布です。F分布はカイ二乗統計量からつくることができます。以下をやってみましょう。

  1. 正規乱数を2乗したものを5つ足した数を10000個つくりなさい。
    \[\frac{X_1^2+X_2^2+X_3^2+X_4^2+X_5^2}{5}\]
  2. 正規乱数を2乗したものを2つ足した数を10000個つくりなさい。
    \[\frac{X_1^2+X_2^2}{2}\]
  3. 1.を2.で割った数(10000個)のヒストグラムを作成しなさい。ただし、割り算なので、極端に大きな数をとる場合があるので、20以上となる数は無視しなさい。また、縦軸は相対度数(確率)表示で。
  4. 3.の数の密度分布を、3.ヒストグラムに重ね描きしなさい。
  5. 自由度(5,2)のF分布の密度分布を3.のヒストグラムに重ね描きしなさい。
  6. 2.の数を1.の数で割った数(10000個)について、3.~4.の作業を行いなさい。
  7. 6.のグラフに自由度(2,5)のF分布の密度分布を重ね描きしなさい。
  8. 次の自由度のF分布の密度分布のグラフを重ね描きしなさい。(3,1),(5,1),(10,1),(20,1)
  9. 次の自由度のF分布の密度分布のグラフを重ね描きしなさい。(20,1),(20,5),(20,10),(20,20)

R Tips

hist関数を使えば、ヒストグラムが描けます。

d01<-rnorm(1000)
hist(d01)

この場合、縦軸は各階級の度数が表示されます。これを相対度数にしたかったら、probability=の引数を使います。

hist(d01,prob=T)

とします。probabilityは長いので、表記をprobというふうに省略することが可能です。ヒストグラムは階級の幅を決めるのが面倒ですが、hist関数はデフォルトではSturgesの方法(階級数を$\log_2N+1$とする方法)が使われています。これは正規分布とかではよいのですが、分布の形が正規分布と異なる場合など、おおざっぱなヒストグラムとなる場合があります。その場合は、Fd(Freedman-Diaconisの方法)やScottなどの他の方法も試してみます。階級をベクトルで与えることもできます。break=で指定します。

d01<-rchisq(1000,3)
hist(d01,prob=T)
hist(d01,prob=T,br=”fd”)

density関数が確率変数の密度を推定することは以前紹介しましたが、カイ二乗分布やF分布に従う確率変数のように、0以下の数をとらないような数の場合、引数にfrom=を使うと明示的に0以上で密度推定を行うことができます。

d01<-rchisq(10000,1)
plot(density(d01),xlim=c(0,6),ylim=c(0,1.1),col=1)
par(new=T)
plot(density(d01,from=0),xlim=c(0,6),ylim=c(0,1.1),col=2)

df関数で、F分布の確率密度が計算できます。確率変数$x$が自由度$(5,2)$のF分布に従う場合、X=3.5の確率密度は、

fd(3.5,5,2)

で求めることができます。

解答例として以下も参考にしてください。
[sourcecode language=’c’]
chisqpk<-function(K){   d01<-matrix(rnorm(K*10000),,K)   d01<-d01^2   d02<-apply(d01,1,sum)/K   d02 } d01<-chisqpk(5)/chisqpk(2) f01<-function(x) df(x,5,2) hist(d01[d01<20],prob=T,br="scott",xlim=c(0,10),ylim=c(0,0.8)) par(new=T) plot(density(d01[d01<20],from=0),xlim=c(0,10),ylim=c(0,0.8),col=2) par(new=T) curve(f01,x=c(0,10),ylim=c(0,0.8),col=3) [/sourcecode]

統計のはなし

標準正規乱数を二乗した数は、自由度1のカイ二乗分布に従う確率変数となります。自由度1のカイ二乗分布の期待値は1で、分散は2です。この確率変数を独立に3個とって、平均値を求めると平均値は1で分散は2/3となります。

同じように、標準正規乱数を二乗して得られた確率変数5個の平均は、期待値1、分散2/5の確率変数となります。

この2つの確率変数の比はどうなるか考えてみましょう。両方とも期待値は1なので、期待値は1となるような気がしそうですが、分散が異なるのでそんなに単純ではありません。自由度(5,3)または(3,5)のF分布となります。自由度は比をとるときの分子と分母をどちらにもってくるかの違いです。一般的に言うと次のようになります。

確率変数$X_{11},…,X_{1q},X_{21},…,X_{2r}$がそれぞれ独立に標準正規分布に従うとき、
\[
\frac{\displaystyle{\frac{X_{11}^2+\cdots +X_{1q}^2}{q}}}{\displaystyle{\frac{X_{21}^2+\cdots +X_{2r}^2}{r}}}
\]
は、自由度$(q,r)$のF分布に従います。

足した確率変数の数を自由度とするカイ二乗分布に従うカイ二乗分布に従うことは既に勉強しました。たとえば、正規乱数(平均が0でなくてもよいし、分散$\sigma^2$も1でなくてよい)$X_1,X_2,X_3$を使って、$X_1^2+X_2^2+X_3^2$という確率変数をつくると、これは自由度3のカイ二乗分布に従います。しかし、この3つの算術平均$\bar{X}=(X_1+X_2+X_3)/3$を使って標準化し、
\[
\frac{(X_1-\bar{X})^2}{\sigma^2}+\frac{(X_2-\bar{X})^2}{\sigma^2}+\frac{(X_3-\bar{X})^2}{\sigma^2}
\]
を求めると、この確率変数は自由度(3-1)のカイ二乗分布に従います。これも勉強しました。

同じことを別の5つの正規乱数を用いてやると、これによって得られた確率変数は自由度(5-1)のカイ二乗分布に従います。

そして、この2つの確率変数をそれぞれの自由度で割った値の比は、自由度(2,4)または(4,2)のF分布に従います。$\sigma^2$が分母と分子で同じことを考えると、この形は標本分散の比較そのものであることに注意してください。F分布は分散分析に利用されます。

一般に、確率変数$X_1$が自由度$q$のカイ二乗分布に従い、確率変数$X_2$が自由度rのカイ二乗分布に従うとき、確率変数
\[
\frac{X_1/q}{X_2/r}
\]
は自由度$(q,r)$のF分布に従うということを覚えておいてください。

おすすめ