データの変化を比較する場合,しばしば,平均値を引いて,標準偏差で割るという,いわゆる標準化というのをやります。これが何を意味するか,中心極限定理が答えています。
- #6のd04からの2個の無作為抽出の平均値から母集団d04の平均値を引き,それをd04の標準偏差で割った値を,1000とおり求めなさい。
\[\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\]
ただし,$\bar{X}$は2個無作為抽出の標本平均,$\mu$は母集団の平均,$\sigma^2$は母集団の分散,$n$は無作為抽出の数で,この場合は$n=2$です。 - 上と同じことを,5個の無作為抽出について行いなさい。
- 上と同じことを,10個の無作為抽出について行いなさい。
- 上と同じことを,20個の無作為抽出について行いなさい。
- 上と同じことを,50個の無作為抽出について行いなさい。
- 上と同じことを,100個の無作為抽出について行いなさい。
- 上と同じことを,500個の無作為抽出について行いなさい。
- 以上7パターンの確率密度を,グラフに重ねて書きなさい。
- 2個の無作為抽出の確率密度と標準正規分布の確率密度を重ねて描いて比較しなさい。
- 500個の無作為抽出の確率密度と標準正規分布の確率密度を重ねて描いて比較しなさい。
R Tips
sqrt関数は,平方根を求めます。sqrt(2)は1.4142…です。
sd関数は、標準偏差を返します。sd(d00)というように使います。sqrt(var(d00))と同じです。
curve関数は、1変数の関数のグラフを描いてくれます。
curve(sin,x=c(0,4*pi))
とすると、サインカーブを描いてくれます。
dnorm関数は正規分布の確率密度を返します。
dnorm(x,mean=3,sd=2)
で、平均3、標準偏差2の正規分布における値xの確率密度を返します。引数meanとsdを省略して、
dnorm(x)
とすると、平均0、標準偏差1のいわゆる標準正規分布の確率密度を返します。curve関数を使って、標準正規分布の確率密度のグラフを描くには、
curve(dnorm,x=c(-4,4))
などとすればよいです。
統計のはなし
どんなヘンな分布でも、(平均と標準偏差が定義できる限り)その標本平均を基準化してやると、その分布は、標本数が多くなると標準正規分布に近づきます。この命題は中心極限定理と呼ばれています。例題でつかっているd04というデータも、なんともヘンな分布ですが、標本規模2ではやや無理がありますが、標本規模が5、10、…と増えるごとにだんだん標準正規分布に近づいています。これは結構すごいことで、ここでちょっと驚いてください。
$n$個標本の平均$\bar{X}$を母平均$\mu$と母分散$\sigma^2$で標準化した統計量
\[
Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}
\]
の分布は,標準正規分布に収束する.
\[
\lim_{n\to \infty}\Pr(\leq z)
=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{t^2}{2}\right)dt
\]