#７標本分散と標本平均のつづき – 環境マーケティング論分野

前回に引き続き、標本平均の話です。

d04の分散を求めなさい。
d04から20個無作為に抽出したデータの分散を100とおり求めて、その平均値を求めなさい。
d04から10個無作為に抽出したデータの平均を1000とおり求めて、d04.10に保存しなさい。
d04から50個無作為に抽出したデータの平均を1000とおり求めて、d04.50に保存しなさい。
d04から100個無作為に抽出したデータの平均を1000とおり求めて、d04.100に保存しなさい。
d04から500個無作為に抽出したデータの平均を1000とおり求めて、d04.500に保存しなさい。
d04.10、d04.50、d04.100、d04.500のそれぞれについて、分散を求めなさい。どのような法則性がありますか？
d04.10のヒストグラムを描きなさい。
d04.10の分布図（密度分布）を推定しなさい。
d04.10のヒストグラムにd04.10の分布図を重ねて表示しなさい。
d04.10の分布図に、d04.50、d04.100、d04.500の分布図を重ねて表示しなさい。

Table of Contents

R Tips

var関数はベクトルの分散を計算します。ベクトルd00の分散は var(d00) という具合に使います。ただし、これは不偏分散を求めようとするので、$\sum_n(X_i-\bar{X})^2/(n-1)$を計算しています。var(1:3)を計算してみてください。

density関数はベクトルの確率密度を返します。確率密度ってなんだ？というのはひとまず置いておいておきましょう。d01の確率密度の分布はplot(density(d00))で描画することができます。

par(new=T)で、直前に描いたグラフの中に別のグラフをかくことができます。d00のヒストグラムに密度関数の分布を重ねて表示する場合は、以下のようにします。しかし、これではx軸の目盛りもy軸の目盛りもずれてるはずです。

hist(d00)
par(new=T)
plot(density(d00))

hist関数もplot関数も、引数xlimを使ってx軸の目盛りを揃えることができます。上の例は、以下のように書き換えられます。xlim=c(0,10)は、x軸の最小が0、最大が10ということになります。データによって適当にc( , )の中身を適当に変更してください。xlim=c(min(d00),max(d00))　などとするとしてもよいでしょう。しかし、それでもy軸はずれたままです。

hist(d00,xlim=c(0,10))
par(new=T)
plot(density(d00),xlim=c(0,10))

hist関数のy軸ははデータのカウント数。plot(density(…の場合は、確率。hist関数も、引数にprob=Tとすると、確率でヒストグラムを描いてくれます。それでもy軸の目盛りは多少ずれるので、引数ylimを使ってy軸の目盛りを揃えることができます。結局以下のようにすれば縦横軸とも一致させることができます。

hist(d00,xlim=c(0,10),prob=T,ylim=c(0,3))
par(new=T)
plot(density(d00),xlim=c(0,10),ylim=c(0,3))

plot関数の色を変えたければ、引数colで変更することができます。col=”red”などとすることができますが、面倒くさければ1,2,3,の数字を順に与えると、適当に色が変わります。

plot(density(d00),xlim=c(0,10),ylim=c(0,3),col=2)

統計のはなし

$n$個の確率変数$X$の分散は

\[
\sigma^2=E\left[ (X-\mu)^2 \right]
\]

で定義されます。確率変数$X$からの標本$X_1,…,X_n$の標本分散は、

\[
\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2
\]

ですが、その期待値は母集団の分散よりもやや小さくなります。つまり、不偏性がありません。上の式の分数のところを、$1/n-1$に代えた標本分散の期待値は母集団の分散と等しくなります。つまり、不偏です。つまり、不偏分散は、

\[
Var(X)=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2
\]

で与えられ。この場合、

\[
E(Var(X))=\sigma^2
\]

となります。Rのvar関数も不偏分散を計算します。エクセルなんかは、VAR関数（$n-1$で割ったもの）とVARA関数（$n$で割ったもの）の２種類を用意しています。

さらに、前回やった標本平均$\bar{X}$ですが、これ自身も分布を持ち、$E(\bar{X})=\mu$でしたが、分散は母集団の分散の$1/n$の大きさとなります。

\[
Var(\bar{X})=\frac{\sigma^2}{n}
\]

$n$すなわち標本規模が大きくなればなるほど、分散は小さくなります。

R Tips

統計のはなし

おすすめ

#11カイ二乗分布

#14統計的検定

#9中心極限定理