Coursera Machine Learning 完走!
3月から頑張っていたCoursera Machine Learningのカリキュラム全部終わりました。
とりあえずこんな感じでした。
○始める前
「え?3ヶ月のカリキュラム?基礎知識はあるし1ヶ月で終わらしてやんよ」
○途中
「あ、ちょっと、これは、・・・。」
○今ここ
「ちょっと休んでから2週目行きますかね。」
ということで、非常にためになる講座でした。
まだまだ理解が不十分なところあるので、何かしらサンプルコードでも書きながら復習が必要そうです。
とりあえず「ちゃんと最後までやったよ!」という報告だけなので、今回は中身についてあまり書きませんが、カリキュラムの終盤は機械学習の理論的な中身の話だけでなく、実際のプロジェクトにおいて注意しなくてはいけない点や様々なデータに対するアプローチ方法なども紹介されていて、仕事として機械学習を使っていこうとしている人にとっては必見な内容だと思いました。
Coursera MLの6,7週目ともろもろ
Coursera Machine Learningの6,7週目が終わりました。
SVMの話や教師なし学習としてk-meansやPCAの話がありました。
今までに比べるとサラッと解説するような感じで、とっつきやすい内容でした。(中身もだいたい知っている内容だったこともある。)
SVMはマージンの意味などもわかりやすくて相変わらずためになる内容です。
また、1~4週目の復習がてら回帰を実装しながら細かく見ていくプログラム&資料を作成中なのでまた公開します。
で、それはそうとGW期間が来ましたね。
現実逃避の旅に出かけるべく、日本地図にダーツをして行き先を決めるアプリないかなーと思って探していると、簡易的なものを見つけました。ただちょっと改良したかったのでちょろっと改造をし始めるといつの間にか1日が終わって旅に出るタイミングを逃していまいました。
その日記がこちら
とりあえず動作確認も兼ねて行き先をポチッと。
© OpenStreetMap contributors
(図はOpenStreatMap。GoogleMapは画像で貼れないので。)
あー・・・。最北端・・・、を超えてますかねぇ。これは行けない。。。
まぁそもそも連休をつなげてないので遠出はできないんですけどね。
Coursera Machine Learning 4,5週目日記
引き続き頑張り中のCoursera Machine Learning。4,5週目はニューラルネットワークの話です。
入力から結果を計算するフォワードプロパゲーションと、結果から重みを更新するバックプロパゲーションの解説。
プログラム課題の難易度が前回より随分上がった気がしました。いろいろと調べまわってなんとか。。。
とりあえず全体的な復習も兼ねて、ロジスティック回帰のR言語自力実装を開始したので、完成したらここかQiitaにまとめようと思います。
いやはや、まだNNは自力実装できる気がしないのでがんばる。
まだMachine Learningコースはドロップアウトせずにぎりぎり続いてますよ、という報告でした。
分析コンテスト、スタートでつまずいた教訓
さてさて、新年度ということで以下の分析コンテストに参加して、一回目の解析結果投稿をしてみました。
そして投稿してみてびっくり。一発目の投稿はbenchmarkよりちょっと良いぐらいで、ほぼ最下位グループではありませんか。
ここのベンチマークは乱数というか値固定というか、いわば「解析せずにえいやで数値だすとこのぐらいのスコアだよ」っていう感じ基準(過去の傾向を見た感じの憶測です)なので、自分の結果もその程度だということです。
それにランキング全体をみると、どうも上位と下位で明確にスコア差があります。0.4以下グループと0.8以上グループみたいな。
あ、これは分析精度うんぬんの前に、そもそも答えのフォーマットというか求められている数値になってないなと。特に今回のコンペの場合、学習データは故障の有無なのに対して、出すべき答えは故障確率なので、そのへんで誤ってそうです。
ということで、問題定義や結果の出し方でいきなり間違ったので戒めがてら記録しておきました。さて、どこまでスコア伸ばせるかなぁ。。。
ーーー
csvをsqliteにポイっと入れるスクリプト
Gistから貼り付ける実験を兼ねて。。。
Gistに2ファイル投稿したものを貼り付けたらどうなるのっと。
データ分析コンペなどで、たくさんのcsvを受け取ってまずは結合したり抽出したりコネコネしたいときにDB(というかSQLでの処理)が使いたくなります。
ということでワンクリックでcsvからsqliteにデータを流し込むツールがほしかったんですが、案外見当たらなかったので作りました。
非常に用途は限られていると思いますが。。。
ああ、、、今見るともうちょっといろいろ関数化しておくべきだったなぁとか、「ワンクリックで」と書いたのにクリックじゃなくて「ワン"カタカタ、ターン"」だなぁとか思ってしまいました。
Coursera Machine Learning 3週目日記
忘れないうちに。Coursera MLの3週目終わりました。
感想の概要:完全に理解するには自分でプログラム組んでみないとだめかも。
3週目はロジスティック回帰についてでした。
ロジスティック回帰の損失関数がどんなことを意味しているか、という解説がわかりやすく、ロジスティック回帰もわかっていたようでまだまだ奥が深いなぁと痛感。
そして、正則化の話も出てきました。
余談ですが、字幕でところどころ"正則化"でないといけないところが"正規化"になっていました。もしこのコースを受けてみようと思っている方はご注意を。
正則化項を置くことで係数が大きくなることに対してペナルティを与える、という考え方がとてもわかりやすかった、、、ですが、これもまだイメージでなんとなくわかったというぐらいなので、深く理解するには自分で1からプログラム組んでみないとだめかなぁと思いました。
ちょっといろいろと書きたい内容が貯まってきたので短めで。
データ分析関連のお勉強コンテンツ
courseraの機械学習講義についての日記を何度か書いていますが、courseraのようなMOOCと呼ばれるものをはじめ、社会人や学生が新たなスキルを身につけることを支援するサービスが最近どんどん出てきています。
自分もいくつか受講したり、どんなものがあるか調べたりしたのでまとめておきます。
主にデータ分析/PG系。
(MOOC/MOOCsはMassive Open Online Course(大規模オンライン講義)の略。らしい。)
- gacco
gaccoは日本発のMOOCです。
統計に関する講義が多くあります。印象として丁寧な講義が多く、0から学習する人でも挫折しにくいレベルかなと思います。コースを修了するためにはテストを受講する必要がありますが、そこまで難しいという感じでもないです。(簡単に満点とれるわけでもないですが。)
受講したことある講義
・社会人のためのデータサイエンス入門
・社会人のためのデータサイエンス演習
・新規事業開発スキル
・統計学Ⅱ:推測統計の方法
2017/4から「統計学Ⅰ」、7月からは「統計学Ⅲ」が開講されるようです。
- Schoo
こちらは有料の動画学習サービスです。無料でも一部の動画が見れたり、生放送を見ることができます。内容も多岐にわたっていて面白そうなものがたくさんあります
- coursera
代表的なMOOC
・Machine Learning 受講中
日本語字幕あり。
ほかにも海外のものでは
- edX
- Udacity
が有名だそうです。
例えば、グーグルがディープラーニングの講義動画をUdacityで配信していたりします。
英語苦手すぎて全部見れてないのは秘密。
ほかにも、高専や技科大が中心となっているFisdomや
CtoCの学習プラットフォームUdemy
など、おもしろそうなところがありました。
プログラム系の学習サービスはさらに盛りだくさんです。
私は
のように動画で学んだり、実際に問題を解くコードをごりごり書いたりするところをたまに利用しています。が、習うより慣れろ派(非効率)なので気づいたら問題ばっかり解いてます。paizaは(いい意味で)ぶっとんだプログラムゲームがあるのでたまに遊んでいます。
ついでに実際にはまだ使っていませんが、調べていて面白そうだったところをいくつか。
こういった学習サービスはビジネスモデルがどのようになっていくのかも含め、現在注目の分野です。