#１とにかく計測してみるーOLSから – 環境マーケティング論分野

卒論やら修論やらかかなあかんみなさんへ

統計のお勉強をしましょうといいながら、なかなか開始できませんでしたが、そろそろ始めましょう。
とはいえ、みんな集まってやるという時間もないので、メール等で対応いたします。

とりあえず、代表的な計測手法をひととおりやってから、理屈の方に入っていきたいと思います。

まずは、Rを使ってOLS推定をやってください。
https://www.eeso.ges.kyoto-u.ac.jp/emm/?p=70
をみてください。

とりあえず、必要とされる知識はメモしておきましたが、十分ではありません。
分からないところは、本でもネットでも使って、なんとか補ってください。

これから、ひまを見てはいろいろ問題を出していきます。
それが終わる頃には、統計学がちょっとは使えるようになっていると思います。
卒論または修論で統計を使う人は必ずやってください。
使わない人もできたらやりましょう。
検討を祈ります。

理屈を学ぶ前に、とりあえず、どのようなデータに対してどのような計測手法を用いるかだけでも、知っておきましょう。

OLS

次のデータを使って、OLS推定しなさい。

d01.csv

このデータは、ある車種の中古車価格のリスト（架空の値）です。

Rにこのデータを読み込みなさい。
このテータを使ってRで、中古車価格（price)のOLS推定を行いなさい。ただし、各変数の意味は、下の表に書いてあります。
京都で売られている正規ディーラー販売の2005年モデル、グレードG、走行距離6万キロ、1400CC、AT、オーディオ付き、カーナビ無し、色は黒、傷の程度は1で、事故歴無しが100万円で売られていました。この車は買いですか、どうですか？

変数名	説明	変数の種類
area	販売地区	京都、大阪、神戸
dealer	ディーラー	正規ディーラー:1、それ以外:0
modelyear	年式	2000～2008年
grade	グレード	S,T,G,GXの4モデル
run	走行距離	Km
displ	排気量	cc
AT	ミッション	AT車:1、MT車:0
audio	オーディオ	付き:1、無し:0
navi	カーナビ	付き:1、無し:0
color	色	白、シルバー、青、赤、黒
damage	傷	傷ほとんど無し：0～酷い傷有り:5
precord	事故歴	事故車:1、無事故車:0
price	車価格	万円

R TIPS

RにCSVデータを読み込む
たとえば、c:\home\documentsというフォルダに保存されているd01.csvというファイルをRに読み込みたかったら・・・

d01<-read.csv(“c:/home/documents/d01.csv”)

これで,d01という名前のデータフレームができます。ただし、スラッシュ（／）の向きに要注意！。最後のTは最初の行を変数名として読み込むかどうかで、Tは「読み込む」ということ。
RでOLS推定は、lmコマンドを使います。
d01というデータフレームに、y,x1,x2,x3という4つの変数があった場合、yにxを回帰させるのは

o01<-lm(y~x1+x2+x3,d01)

です。o01に推定結果が入力されます。結果のサマリーを見たい場合は、

summary(o01)

で表示されます。

Coefficients:
                         Estimate       Std. Error       t value    Pr(>|t|)
(Intercept) -6.245e+03    2.520e+02 -24.782     < 2e-16 ***
x1                   -1.639e+00   7.982e-01 –   2.053      0.04032 *
x2                  -6.622e-01     7.731e-01 -0.857     0.39188

といった具合に表示されますが、Estimateが推定値で、各変数の値が1増えた場合のyの増加を示します。Std.Errorが標準誤差で、推定値のばらつきの標準偏差を示しています。t valueがt値で、EstimateをStd.Errorで割った値です。Pr(|t|)はp値と呼ばれ、推定されたt値に基づいてt検定した場合に当該変数のEstimateが0である確率を示しています。ちなみに(intercept)は定数項で、すべての変数が0の場合のyの期待値です。
y以外のすべての変数を使うのなら、

o01<-lm(y~.,d01)

とすることもできます。特定の変数を抜きたいなら、

o01<-lm(y~.-x1,d01)

で変数x1が推定から外されます。
変数がA,B,Cといった名義変数の場合、たとえば、変数X4がAまたはCの場合は0となり、Bならば1となるような変数（ダミー変数といいます）D1と、同じくAまたはBの場合=0、Cならば1をとるような変数D2を新しく作る必要がありますが、エクセルは、こうした名義変数を勝手に判断して、たとえばX4:B、X4:Cという具合に推定結果を表してくれます。それぞれ、X4がAの場合に対してX4がBまたはCの場合は、yがどれだけ変わるかを示しています。
説明変数を抜いたり足したり、対数をとったりして、よりよい計測モデルを作りますが、その中でどれがよいかを判断する指標としてAIC（赤池の情報量基準）というのがあります。推定結果o01のAICを求めるには、

AIC(o01)

とすればOKです。これがもっとも小さいのが、無駄な変数を使わずに、説明力が高いモデルということになります。

OLS

R TIPS

おすすめ

#4順序ロジット

Rで家計費調査のデータから食の好みの日本地図を描きたい

#9中心極限定理