#1とにかく計測してみるーOLSから

卒論やら修論やらかかなあかんみなさんへ

統計のお勉強をしましょうといいながら、なかなか開始できませんでしたが、そろそろ始めましょう。
とはいえ、みんな集まってやるという時間もないので、メール等で対応いたします。

とりあえず、代表的な計測手法をひととおりやってから、理屈の方に入っていきたいと思います。

まずは、Rを使ってOLS推定をやってください。
https://www.eeso.ges.kyoto-u.ac.jp/emm/?p=70
をみてください。

とりあえず、必要とされる知識はメモしておきましたが、十分ではありません。
分からないところは、本でもネットでも使って、なんとか補ってください。

これから、ひまを見てはいろいろ問題を出していきます。
それが終わる頃には、統計学がちょっとは使えるようになっていると思います。
卒論または修論で統計を使う人は必ずやってください。
使わない人もできたらやりましょう。
検討を祈ります。

理屈を学ぶ前に、とりあえず、どのようなデータに対してどのような計測手法を用いるかだけでも、知っておきましょう。

OLS

次のデータを使って、OLS推定しなさい。

d01.csv

このデータは、ある車種の中古車価格のリスト(架空の値)です。

  1. Rにこのデータを読み込みなさい。
  2. このテータを使ってRで、中古車価格(price)のOLS推定を行いなさい。ただし、各変数の意味は、下の表に書いてあります。
  3. 京都で売られている正規ディーラー販売の2005年モデル、グレードG、走行距離6万キロ、1400CC、AT、オーディオ付き、カーナビ無し、色は黒、傷の程度は1で、事故歴無しが100万円で売られていました。この車は買いですか、どうですか?
変数名 説明 変数の種類
area 販売地区 京都、大阪、神戸
dealer ディーラー 正規ディーラー:1、それ以外:0
modelyear 年式 2000~2008年
grade グレード S,T,G,GXの4モデル
run 走行距離 Km
displ 排気量 cc
AT ミッション AT車:1、MT車:0
audio オーディオ 付き:1、無し:0
navi カーナビ 付き:1、無し:0
color 白、シルバー、青、赤、黒
damage 傷ほとんど無し:0~酷い傷有り:5
precord 事故歴 事故車:1、無事故車:0
price 車価格 万円

 

R TIPS

  • RにCSVデータを読み込む
    たとえば、c:\home\documentsというフォルダに保存されているd01.csvというファイルをRに読み込みたかったら・・・

    d01<-read.csv(“c:/home/documents/d01.csv”)

    これで,d01という名前のデータフレームができます。ただし、スラッシュ(/)の向きに要注意!。最後のTは最初の行を変数名として読み込むかどうかで、Tは「読み込む」ということ。

  • RでOLS推定は、lmコマンドを使います。
    d01というデータフレームに、y,x1,x2,x3という4つの変数があった場合、yにxを回帰させるのは

    o01<-lm(y~x1+x2+x3,d01)

    です。o01に推定結果が入力されます。結果のサマリーを見たい場合は、

    summary(o01)

    で表示されます。

    Coefficients:
                              Estimate         Std. Error       t value       Pr(>|t|)   
    (Intercept)  -6.245e+03    2.520e+02   -24.782     < 2e-16 ***
    x1                   -1.639e+00    7.982e-01  –   2.053       0.04032 *  
    x2                  -6.622e-01      7.731e-01    -0.857      0.39188   

    といった具合に表示されますが、Estimateが推定値で、各変数の値が1増えた場合のyの増加を示します。Std.Errorが標準誤差で、推定値のばらつきの標準偏差を示しています。t valueがt値で、EstimateをStd.Errorで割った値です。Pr(|t|)はp値と呼ばれ、推定されたt値に基づいてt検定した場合に当該変数のEstimateが0である確率を示しています。ちなみに(intercept)は定数項で、すべての変数が0の場合のyの期待値です。

  • y以外のすべての変数を使うのなら、

    o01<-lm(y~.,d01)

    とすることもできます。特定の変数を抜きたいなら、

    o01<-lm(y~.-x1,d01)

    で変数x1が推定から外されます。

  •  変数がA,B,Cといった名義変数の場合、たとえば、変数X4がAまたはCの場合は0となり、Bならば1となるような変数(ダミー変数といいます)D1と、同じくAまたはBの場合=0、Cならば1をとるような変数D2を新しく作る必要がありますが、エクセルは、こうした名義変数を勝手に判断して、たとえばX4:B、X4:Cという具合に推定結果を表してくれます。それぞれ、X4がAの場合に対してX4がBまたはCの場合は、yがどれだけ変わるかを示しています。
  • 説明変数を抜いたり足したり、対数をとったりして、よりよい計測モデルを作りますが、その中でどれがよいかを判断する指標としてAIC(赤池の情報量基準)というのがあります。推定結果o01のAICを求めるには、

    AIC(o01)

    とすればOKです。これがもっとも小さいのが、無駄な変数を使わずに、説明力が高いモデルということになります。

おすすめ