データ分析でお得な物件を探したい part.3
モデル化のイメージ
地価の分布をモデル化します。
分布の傾向を考えて、数式に当てはめていくことを考えます。
といってもイメージしづらいので例をば。
例えば、図のような分布があったとき
直線で表すことができそうです。y = ax + b という式ですね。
そういう式で表すことで、xの場所がわかれば、yが計算できるようになります。
今回で言えば、場所がわかれば地価がわかる、となります。
でも、よく見ると直線より曲線のほうがいい感じに分布に従っているように見えます。
では xの2乗だったりlogだったりを使って式で表そう、ということにもできるわけです。
さらに数式を複雑怪奇摩訶不思議にしてすべてのプロット点を通るようにする、ということも可能といえば可能です。
しかしそれは良いモデルとはいえません、複雑になればなるほど思わぬ計算結果がでることもありますし、
なぜそういうモデルになったのかという説明もしにくいのです。
モデル化を考える
地価分布の特性を考えて、以下のモデルを作ります。
☆モデル1:一点上に凸のモデル
→ 中心部が極端に地価が高くなっているのを吸収します
☆モデル2:傾いた平面のモデル
→方角によって地価の差がありそうです。23区全体を見た時に西の方より東が安い!みたいな。
☆モデル3:曲面のモデル
→中心ほど高く、距離に応じて比例して地価が安くなってそうです。
こういう仮説を立てました。
複数の要因を組み立てて、式を作る手法に重回帰分析というのがあります。
地価 = 係数1×モデル1+係数2×モデル2+係数3×モデル3+定数
のような感じで指揮を組み立て、各係数をどう設定するといい感じにモデルがつくれるかを計算する分析手法です。
長々と連載するのは書く方も見る方も辛いのでもう結果へ。
うん、わかりにくい!地図と結合だ!
こんな分布が出来ました。
範囲は右の図です。
中心部がぐっと高く、広く見ると西南から北東方向へ地価が安い という感じ。
一旦休憩。
次回はモデルが妥当かどうかの検証です。