順序統計量

累積分布関数を$F(x)$,確率密度関数を$f(x)$とするある連続分布からの$n$個の観測値$x_1$~$x_n$を大きい順に並び換えたものを

$$x_{(1)},\cdots,x_{(n)}$$

と書く。$x_{(1)}$は最小値,$x_{(n)}$は最大値であり,$x_{(k)}$を$k$番目の順序統計量という。

最大値,最小値,$k$番目の分布

最大値の分布

最大値$x_{(n)}$の累積分布関数$G(x)$は

$$x_{(i)}\leq x \ (i=1\cdots n)$$
となること,すなわち,$x_1,\cdots,x_n$のすべてが$x$以下になることと同値だから,
$$P\left( x_{(1)}\leq x \mbox{ and } x_{(2)}\leq x … \mbox{ and } x_{(n)}\leq x\right)$$

$$=P\left( x_{(1)}\leq x\right) P\left( x_{(2)}\leq x\right) \cdots P\left( x_{(n)}\leq x\right)$$

$$=F(x)\cdot F(x)\cdot …\cdot F(x)$$

より,

$$G(x)={F(x)}^n$$

したがって,最大値の確率密度関数$g(x)$は$x$について微分して

$$g(x)=n{F(x)}^{n-1}f(x)$$

Rスクリプト

d01<-runif(200000) #20万個一様乱数発生
d01<-matrix(d01,10000,20) #10000×20の行列にする
d02<-apply(d01,1,max) #各行(20個)の最大値を求める
hist(d02) #ヒストグラムを描く
d03<-apply(d01,1,min) #各行(20個)の最小値を求める
hist(d03) #ヒストグラムを描く

最小値の分布

同様にして最小値$x_{(1)}$の累積分布関数は

$$P\left(x \leq x_{(1)} \mbox{ or } x \leq x_{(2)} ... \mbox{ or } x \leq x_{(n)}\right)$$

$$=1-P\left(x \geq x_{(1)} \mbox{ and } x \geq x_{(2)} ... \mbox{ and } x \geq x_{(n)} x\right)$$

$$=1-\left(1-F(x)\right)\cdot\left(1-F(x)\right)\cdot ...\cdot \left(1-F(x)\right)$$

$$G(x)=1-\left(1-F(x)\right)^n$$

確率密度関数は

$$g(x)=n\left(1-F(x)\right)^{n-1}f(x)$$

となる。

$k$番目の順序統計量の分布

 一般に,順序統計量$x_{(k)}$の確率密度関数は,$x_{(k)}\leq x$となることと$x_1,...,x_n$のうち$k$個以上が$x$以下になることと同値であり,

$$P{x_{(k)}\leq x}=\sum_{i=k}^n {_nC_i}F(x)^i{1-F(x)}^{n-i}$$

より

$$g(x)=\frac{n!}{(k-1)!(n-k)!}F(x)^{k-1}{1-F(x)}^{n-k}f(x)$$

で与えられる。

$$\frac{n!}{(k-1)!(n-k)!}=k\frac{n!}{k!(n-k)!}=k{_nC_k}$$
なので,
$$g(x)=k{_nC_k}F(x)^{k-1}{1-F(x)}^{n-k}f(x)$$

と書かれたり,また,ベータ関数を用いて
$$\frac{n!}{(k-1)!(n-k)!}=\frac{1}{B(k,n-k+1)}$$

と表されるので,

$$g(x)=\frac{1}{B(k,n-k+1)}F(x)^{k-1}{1-F(x)}^{n-k}f(x)$$

と表記されることがある。