チラシの裏の設計書

プログラム開発、データ分析からロボット作りまでものづくり全般を思うがままに書き連ねたブログ。

データ分析でお得な物件を探したい part.4

<<part.3

 

モデルを評価する

前回、東京23区の地価モデルとしてこんなモデルが出来上がりました。「地価モデルA」とします。

image

比較としてもうひとつモデルを考えてみます。

前回定義したモデルの要素3つのうち

☆モデル要素1:一点上に凸のモデル

☆モデル要素2:傾いた平面のモデル

☆モデル要素3:曲面のモデル

2つだけ使ってみます。傾いた曲面で表してみます。

image

こういう地価モデル。(実は最初はこっちでやってました。)「地価モデルB」としましょう。

こっちでも真ん中が高く、外に行くほど地価が下がるというのを表現できている気がします。

この2つの地価モデルを比較してみます。

AICの比較

モデルの当てはまりの良さを表す指標にAICというものがあります。赤池情報量規準の略称ですが、難しい式は置いておいて。

地価モデルAのAIC = 15771.32

地価モデルBのAIC = 15895.24

低い方が当てはまりが良い、ということになります。

うーん、たしかに地価モデルAのほうが良さそうに数値上見えますが、ちょっとイメージしにくいです。

 

残差の比較

今回は地価のデータを予測したいわけなので、実際の地価データとモデルによって算出される地価の差「残差」をみてみると評価できそうです。まぁこういう回帰分析評価の王道というわけです。

image

残差をグラフ化してみました。黒点が上にあるほどモデルに対して実際の地価のほうが高い状態です。黒点線が差が0の部分です。

モデルAの場合、比較的差0付近に集まっているように見えます。

モデルBの場合、予想地価が低いところとでは残差が+、予想地価が中間ぐらいのところでは残差がー、高いとこではまた+、と予想値があんまりあてにならないような印象を受けます。

もう一個、グラフを。予想値と実値をプロットしてみます。

image

 

予想値と実値が一緒なのがピンクの線です。ちょっと縦横のスケールずれてすいません。

たしかに地価モデルBの方は地価が中間ぐらいのところで予想が外れそうです。

 

次回は、ついに(やっと)実際の家賃と合わせて評価&Webサービス化を考えます。