前回に引き続き、標本平均の話です。
- d04の分散を求めなさい。
- d04から20個無作為に抽出したデータの分散を100とおり求めて、その平均値を求めなさい。
- d04から10個無作為に抽出したデータの平均を1000とおり求めて、d04.10に保存しなさい。
- d04から50個無作為に抽出したデータの平均を1000とおり求めて、d04.50に保存しなさい。
- d04から100個無作為に抽出したデータの平均を1000とおり求めて、d04.100に保存しなさい。
- d04から500個無作為に抽出したデータの平均を1000とおり求めて、d04.500に保存しなさい。
- d04.10、d04.50、d04.100、d04.500のそれぞれについて、分散を求めなさい。どのような法則性がありますか?
- d04.10のヒストグラムを描きなさい。
- d04.10の分布図(密度分布)を推定しなさい。
- d04.10のヒストグラムにd04.10の分布図を重ねて表示しなさい。
- d04.10の分布図に、d04.50、d04.100、d04.500の分布図を重ねて表示しなさい。
R Tips
var関数はベクトルの分散を計算します。ベクトルd00の分散は var(d00) という具合に使います。ただし、これは不偏分散を求めようとするので、$\sum_n(X_i-\bar{X})^2/(n-1)$を計算しています。var(1:3)を計算してみてください。
density関数はベクトルの確率密度を返します。確率密度ってなんだ?というのはひとまず置いておいておきましょう。d01の確率密度の分布はplot(density(d00))で描画することができます。
par(new=T)で、直前に描いたグラフの中に別のグラフをかくことができます。d00のヒストグラムに密度関数の分布を重ねて表示する場合は、以下のようにします。しかし、これではx軸の目盛りもy軸の目盛りもずれてるはずです。
hist(d00)
par(new=T)
plot(density(d00))
hist関数もplot関数も、引数xlimを使ってx軸の目盛りを揃えることができます。上の例は、以下のように書き換えられます。xlim=c(0,10)は、x軸の最小が0、最大が10ということになります。データによって適当にc( , )の中身を適当に変更してください。xlim=c(min(d00),max(d00)) などとするとしてもよいでしょう。しかし、それでもy軸はずれたままです。
hist(d00,xlim=c(0,10))
par(new=T)
plot(density(d00),xlim=c(0,10))
hist関数のy軸ははデータのカウント数。plot(density(…の場合は、確率。hist関数も、引数にprob=Tとすると、確率でヒストグラムを描いてくれます。それでもy軸の目盛りは多少ずれるので、引数ylimを使ってy軸の目盛りを揃えることができます。結局以下のようにすれば縦横軸とも一致させることができます。
hist(d00,xlim=c(0,10),prob=T,ylim=c(0,3))
par(new=T)
plot(density(d00),xlim=c(0,10),ylim=c(0,3))
plot関数の色を変えたければ、引数colで変更することができます。col=”red”などとすることができますが、面倒くさければ1,2,3,の数字を順に与えると、適当に色が変わります。
plot(density(d00),xlim=c(0,10),ylim=c(0,3),col=2)
統計のはなし
$n$個の確率変数$X$の分散は
\[
\sigma^2=E\left[ (X-\mu)^2 \right]
\]
で定義されます。確率変数$X$からの標本$X_1,…,X_n$の標本分散は、
\[
\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2
\]
ですが、その期待値は母集団の分散よりもやや小さくなります。つまり、不偏性がありません。上の式の分数のところを、$1/n-1$に代えた標本分散の期待値は母集団の分散と等しくなります。つまり、不偏です。つまり、不偏分散は、
\[
Var(X)=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2
\]
で与えられ。この場合、
\[
E(Var(X))=\sigma^2
\]
となります。Rのvar関数も不偏分散を計算します。エクセルなんかは、VAR関数($n-1$で割ったもの)とVARA関数($n$で割ったもの)の2種類を用意しています。
さらに、前回やった標本平均$\bar{X}$ですが、これ自身も分布を持ち、$E(\bar{X})=\mu$でしたが、分散は母集団の分散の$1/n$の大きさとなります。
\[
Var(\bar{X})=\frac{\sigma^2}{n}
\]
$n$すなわち標本規模が大きくなればなるほど、分散は小さくなります。