主成分分析の簡単な解説とRで主成分分析を行う場合の注意点をまとめました.
-
の主成分分析は,各点からの垂線の距離(情報損失量)が最小になるように,固有ベクトルを決める.
-
主成分得点の分散の最大化も,これと同じことをしている.
-
固有値は,最小化された情報損失量であり,最大化された主成分得点の分散でもある.
-
Rで主成分分析は
prcomp()
関数を使う. -
固有値の平方根(主成分得点の標準偏差)
$sdev
とノルム1で直交する固有ベクトル$rotation
が出力される. -
主成分得点(スコア)は
$x
で出力される. -
通常,主成分分析では,各変数の分散は1に標準化した方がよいが,これは引数
scale=T
でできる. -
主成分負荷量は,標準化した変数と,それを使った主成分分析のスコアとの相関係数とするのが一般的.
-
biplot()
関数を使うと,スコアと主成分負荷量という別種の値が1つのグラフにプロットされるが,これらの値は,特異値分解で得られるもので,上記のそれらとは値が異なる. -
biplot()
関数によるプロット図は,引数scale=
に0~1の値で変わる.スコアを一般的な値で出力するならscale=0
.負荷量のプロットをとスコアの相関係数の比率(値そのものは異なる)でプロットしたいならscale=1