#6標本平均

この上に,フォントをインストールしたら・・・というような,メッセージが出ているかもしれません。これは数式を表示させるためのフォントで,このフォントがなくても表示はできますが,指示に従ってインストールすると,きれいな数式が表示できます。

今回は標本平均。全部足してデータ数で割るだけですが,統計学はここからスタートです。
とりあえずやってみようを,もう少し続けたかったですが,サンプルデータづくりに時間がかかって進捗が遅れるので,そろそろ,統計学の基礎に入っていきます。そろそろやってみようシリーズとしては,回帰分析が,多項ロジット,操作変数法,多変量解析が,主成分分析,因子分析,クラスター分析が残っていました。すべてRでできますので,自力でやってみてください。

やってみよう

  1. 母集団となるデータを作成します。Rで以下の操作を行って,10000個のデータをつくりましょう。0~3の間に3000個,一様にデータが散らばっています。同様に,3~8の間に2000個,8~10の間に50000個のデータが一様にちらばっています。
  2. set.seed(123)
    d01<-runif(3000,0,3)
    d02<-runif(2000,3,8)
    d03<-runif(5000,8,10)
    d04<-c(d01,d02,d03)

  3. d04の分布をヒストグラムで確認してみましょう。
  4. d04の平均はいくつですか?
  5. d04から無作為に20個データを抽出してください。
  6. 抽出した20個のデータの平均はいくつですか?
  7. もう一回d04から無作為に20個データを抽出してください。
  8. 今度の20個のデータの平均はいくつですか?
  9. 同じ作業を10回繰り返して,得られた10種類の平均の平均を求めてください。
  10. 同じ作業を100回繰り返して,得られた100種類の平均の平均を求めてください。

R Tips

runif関数は,一様分布の乱数を発生させます。runif(10) で,0~1の間の値をとる10個のデータを作成します。runif(10,2,5)とすると2~5の間の値をとる乱数を10個作成します。乱数なので,発生させるたびに違う値となります。

set.seed関数で特定の決まった乱数を発生させることもできます。set.seed(123)という具合に使います。こうすると,同じ乱数が得られます。set.seed(100)とすると,また別の乱数が得られます。一人で勝手に使うときにはこの関数を使うことはありませんが,他の人と結果が一緒になるようにしたい場合などに使うことがあります。

hist関数で,ヒストグラムを描くことができます。d04がどのような分布になっているか知りたい場合はhist(d04)とすることでヒストグラムを描いてくれます。

mean関数は平均値を返します。mean(04)というふうに使います。

sample関数は,ベクトルから無作為抽出をしてくれます。sample(c(1:10),5)とすると,1,2,…,10の数字から5個のデータを抽出します。

for関数を使うと,作業を繰り返してくれます。上のsample関数を10回繰り返したければ,

d05<-matrix(nrow=10,ncol=5)  #結果を代入する入れ物をつくります。10行6列の空の行列です。
for(i in 1:10){
    d05[i,]<-sample(c(1:10),5)
}
d05

d05という行列のi行目に,sample関数の結果(5個の数字)を代入します。for関数の中の i in 1:10 というのは,iを1から10まで繰り返してください,という意味になります。{ と }との間には,1行だけでなく,たくさんの処理をやらせることもできます。

d06<-rep(NA,10) #結果の入れ物をつくります。10個のベクトルです。
for(i in 1:10){
    d07<-sample(c(1:10),5)
#1から10の整数の中から5個選んでd07に代入する。
   d06[i]<-mean(do7) #d07の平均値を求めて,d06のi番目に代入する。
}
d06

統計のはなし

「やってみよう」では,10000個の数字d04から20個だけ選んで,その平均値を求めd04の平均値と比べてみました。このとき,d04が母集団で,選んだ20個は標本です。標本の平均は標本平均と呼ばれます。母集団の平均は決まっていますが,標本平均は標本の取り方によって様々な値が出ます。しかし,標本平均をたくさんとって,そのまた平均を求めると母集団の平均と等しくなります。これを統計学の用語で表現すると,標本平均は,そのの期待値は母集団の平均に対しして不偏性を持つ,あるいは不偏である,ということになります。数式で書くと,
\[
E(\bar{X})=\mu
\]
という具合です。ただし,$\bar{X}$は,確率変数$X$の標本平均です。上の例だと,sample関数で選ばれた20個の数字の平均値です。$\mu$は,母集団の平均値で,上の例だと,d04の平均値です。$E$は( )の中の数値の期待値を表します。期待値は,$E( )$内の確率変数の平均値でもあるわけですが,ただの平均値ではありません。上の例では,20個の標本から標本平均を最初に10とおり計算して,10個の標本平均を得ましたが,この10個の標本平均のそのまた平均が,標本平均の期待値ではありません。100とおり,1000とおり,あるいは10000とおり計算して期待値に近い値が得られることになります。正確には,$E( )$の中の確率変数を定義する確率分布の平均ということになります。

母集団,標本,母集団の平均,標本平均,期待値。この5つが理解できなければ,おそらく統計学は全く理解できません。

おすすめ