卒論やら修論やらかかなあかんみなさんへ
統計のお勉強をしましょうといいながら、なかなか開始できませんでしたが、そろそろ始めましょう。
とはいえ、みんな集まってやるという時間もないので、メール等で対応いたします。
とりあえず、代表的な計測手法をひととおりやってから、理屈の方に入っていきたいと思います。
まずは、Rを使ってOLS推定をやってください。
https://www.eeso.ges.kyoto-u.ac.jp/emm/?p=70
をみてください。
とりあえず、必要とされる知識はメモしておきましたが、十分ではありません。
分からないところは、本でもネットでも使って、なんとか補ってください。
これから、ひまを見てはいろいろ問題を出していきます。
それが終わる頃には、統計学がちょっとは使えるようになっていると思います。
卒論または修論で統計を使う人は必ずやってください。
使わない人もできたらやりましょう。
検討を祈ります。
理屈を学ぶ前に、とりあえず、どのようなデータに対してどのような計測手法を用いるかだけでも、知っておきましょう。
OLS
次のデータを使って、OLS推定しなさい。
このデータは、ある車種の中古車価格のリスト(架空の値)です。
- Rにこのデータを読み込みなさい。
- このテータを使ってRで、中古車価格(price)のOLS推定を行いなさい。ただし、各変数の意味は、下の表に書いてあります。
- 京都で売られている正規ディーラー販売の2005年モデル、グレードG、走行距離6万キロ、1400CC、AT、オーディオ付き、カーナビ無し、色は黒、傷の程度は1で、事故歴無しが100万円で売られていました。この車は買いですか、どうですか?
変数名 | 説明 | 変数の種類 |
area | 販売地区 | 京都、大阪、神戸 |
dealer | ディーラー | 正規ディーラー:1、それ以外:0 |
modelyear | 年式 | 2000~2008年 |
grade | グレード | S,T,G,GXの4モデル |
run | 走行距離 | Km |
displ | 排気量 | cc |
AT | ミッション | AT車:1、MT車:0 |
audio | オーディオ | 付き:1、無し:0 |
navi | カーナビ | 付き:1、無し:0 |
color | 色 | 白、シルバー、青、赤、黒 |
damage | 傷 | 傷ほとんど無し:0~酷い傷有り:5 |
precord | 事故歴 | 事故車:1、無事故車:0 |
price | 車価格 | 万円 |
R TIPS
- RにCSVデータを読み込む
たとえば、c:\home\documentsというフォルダに保存されているd01.csvというファイルをRに読み込みたかったら・・・d01<-read.csv(“c:/home/documents/d01.csv”)
これで,d01という名前のデータフレームができます。ただし、スラッシュ(/)の向きに要注意!。最後のTは最初の行を変数名として読み込むかどうかで、Tは「読み込む」ということ。
- RでOLS推定は、lmコマンドを使います。
d01というデータフレームに、y,x1,x2,x3という4つの変数があった場合、yにxを回帰させるのはo01<-lm(y~x1+x2+x3,d01)
です。o01に推定結果が入力されます。結果のサマリーを見たい場合は、
summary(o01)
で表示されます。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.245e+03 2.520e+02 -24.782 < 2e-16 ***
x1 -1.639e+00 7.982e-01 – 2.053 0.04032 *
x2 -6.622e-01 7.731e-01 -0.857 0.39188といった具合に表示されますが、Estimateが推定値で、各変数の値が1増えた場合のyの増加を示します。Std.Errorが標準誤差で、推定値のばらつきの標準偏差を示しています。t valueがt値で、EstimateをStd.Errorで割った値です。Pr(|t|)はp値と呼ばれ、推定されたt値に基づいてt検定した場合に当該変数のEstimateが0である確率を示しています。ちなみに(intercept)は定数項で、すべての変数が0の場合のyの期待値です。
- y以外のすべての変数を使うのなら、
o01<-lm(y~.,d01)
とすることもできます。特定の変数を抜きたいなら、
o01<-lm(y~.-x1,d01)
で変数x1が推定から外されます。
- 変数がA,B,Cといった名義変数の場合、たとえば、変数X4がAまたはCの場合は0となり、Bならば1となるような変数(ダミー変数といいます)D1と、同じくAまたはBの場合=0、Cならば1をとるような変数D2を新しく作る必要がありますが、エクセルは、こうした名義変数を勝手に判断して、たとえばX4:B、X4:Cという具合に推定結果を表してくれます。それぞれ、X4がAの場合に対してX4がBまたはCの場合は、yがどれだけ変わるかを示しています。
- 説明変数を抜いたり足したり、対数をとったりして、よりよい計測モデルを作りますが、その中でどれがよいかを判断する指標としてAIC(赤池の情報量基準)というのがあります。推定結果o01のAICを求めるには、
AIC(o01)
とすればOKです。これがもっとも小さいのが、無駄な変数を使わずに、説明力が高いモデルということになります。