標本を限りなく大きくとれば,標本平均は限りなく母集団の平均に近づくだろうという直感を確認してみます。
- #6のd04のデータから,2個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,5個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,10個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,20個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,50個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,100個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 同じく,500個のデータを無作為抽出した場合の標本平均を1000とおり求めなさい。
- 以上の7とおりの標本平均について,それぞれの確率密度の分布を描いて比較しなさい。ただし,y軸とx軸は,それぞれ(0,3)と(0,12)に固定してください。
- 以上の7とおりの標本平均が,母集団d04の平均から0.5以上離れるのは何%ですか。数式で書くと\[\Pr\{ |\bar{X}-\mu |\ge 0.5\} \]ということになります。
R Tips
Rで条件式を書くと,条件に合ったものはTRUE,合わないものはFALSEを返します。たとえば,
> d00<-1:10
> d00>=5
[1] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
となります。このTRUE,FALSEはいろいろ使えまして,よく使うのが,条件に合った要素だけを抽出するときに,
> d00[d00>=5]
[1] 5 6 7 8 9 10
などとすることができます。
その他,条件に合う要素の数を数えるときには,合計を求めるsum関数を用いて,
> sum(d00>=5)
[1] 6
などとすると,TRUEの数だけ数えてくれます。
abs関数は,絶対値を返します。
> abs(-1)
[1] 1
> abs(1)
[1] 1
統計のはなし
標本を大きくとるほど,標本平均が母集団の平均に近づく確率が高くなります。標本平均を限りなく大きくとれば,標本平均は,ほとんど母集団の平均と一致することになります。これを大数(たいすう)の法則と言います。上の例では,標本規模を多くするほど,分布がd04の平均の近くに集中することが確認されたと思います。数式で表すと,以下のようになります。
標本平均$\bar{X}$が,母集団の平均$\mu$から任意の正の定数$c$以上離れる確率は0である。
\[
\lim_{n\to \infty}\Pr\{|\bar{X}-\mu|\ge c\}=0
\]
「任意の」という意味は,1でも2でもよいということですが,この場合は小さい方に関心があるので,「どんなに小さくても」というように解釈してください。つまり$c=0.0000001$であったとしても(任意だから)上の関係式は成り立つ,ということになります。
また,大数の法則は,d04の分布になんの仮定(正規分布だとか何とか)も置いていないことに注意してください。どんな分布でも成り立ちます(平均が存在しないとだめですが・・・)。