データ分析
前回の続きです。今回から本編。 前回までのお話 課題:このアクセスデータから異常っぽいところをいい感じに見つけたいよ。 なお、黒線は記事投稿タイミング。 手法調べる まずは基礎知識をつけるため、グーグル先生に相談してきます。最近では情報もいっぱ…
導入(本編が始まらない) 異常検知って結構ニーズあるんですね。 あんまり前書きをだらだら書いてもあれなので端折りますが、異常検知がしたいという要望をここ最近何度か見聞きしているので、来たるべき日に備えて手法周りを勉強しておく日記です。 で、い…
参加していたコンペ2つが終了しました。 何度かチラシの裏的にメモをとっていたので、そのまとめをしておきます。 レコメンドコンペ deepanalytics.jp 結果:10位/90人 順位的にはまぁまぁ。 1位のスコアが0.281に対して自分が0.253なので、そこそこスコア…
ちょっと技術系の論文が読めるところを探したので書き残しておきます。 さくっと手に入りそうなところ中心。 すでにそういったものをまとめている方もいたりするので二番煎じですが。 readingmonkey.blog45.fc2.com 論文検索サイト 日本語論文なんかが検索で…
↓昔書きかけてた記事を発掘したので公開↓ この記事は「ポラム」カテゴリです。「コラム+ポエム」の造語で”駄文以上日記未満”を目指す記事なのでご注意ください。 ~~~ たいそうなタイトルを付けてしまいましたが、データサイエンティスト(以下DS)と呼ば…
これの続きです。 stkdev.hatenablog.com …が、まだきれいにまとまってないので、とりあえず遊び中のメモです。 前回の記事では1つの単語に対して類似の単語を見つけてきたわけですが、単語の足し算・引き算もできるようにして、やってみました。 いい感じに…
Facebookから公開されたfastTextというライブラリがすごそうなので使ってみようと思います。 github.com このライブラリは大量の文章を読み込んで、単語をベクトル表現できるようにするものです。 そうすることで、似ている単語や単語同士の関連性などを知る…
さてさて、新年度ということで以下の分析コンテストに参加して、一回目の解析結果投稿をしてみました。 deepanalytics.jp そして投稿してみてびっくり。一発目の投稿はbenchmarkよりちょっと良いぐらいで、ほぼ最下位グループではありませんか。 ここのベン…
Qiitaを眺めているとCourseraというところで開講されているMachineLearingの講義が素晴らしいという記事が注目されていたので、その講義について調べてみました。 www.coursera.org これはいわゆるMOOCとも呼ばれる大規模公開オンライン講義形式で行われてい…
既出情報ではあるんですが、日本語情報があまりないので英語拒絶症の人(主に自分)のためにまとめておきます。 ☆やりたいこと R言語のWebアプリが作れるフレームワークShinyで作ったアプリをR言語環境がない人に配布したい。 ☆やること 配布可能なR環境の「…
またずいぶん久しぶりの日記になってしまいました。 あちこちに散らばってしまった情報発信源をちゃんとまとめて更新していこうと決めた2017年ですが、去年も同じ決意をしてた気がします。うん、来年から頑張ろう。 社内勉強会用に作った資料をSlideShareに…
前回に続き、また某所で実施したデータマイニング入門編その2の資料を公開してみた。 まだまだ基礎編です。 ここに登場してるデータとかプログラムソースコードとかも公開しなくちゃなぁ。
※IT系はこちらへ移転 R言語で3Dグラフを作ってみる(rglパッケージ) - Qiitaqiita.com このブログでもたまに登場していますが (データ分析でお得な物件を探したい とか) R言語を使ったプロットを進化させてみます。 rglという3Dプロットができるパッケー…
遅ればせながらスライドシェアへ参戦。 アップロードテストも兼ねて、某所で実施したデータマイニング入門講座の資料を公開してみた。 偉そうに"講座"と言ってはいますが、自分も勉強しながらです。 今年はどこぞのIT勉強会のLTででも発表できるように成果出…
数回に渡りがんばっていたデータ分析でお得な物件をさがしたい の後日談です。 結局分析結果を元に引っ越しできそうです。仕事の都合等もあり南の方へいきまーす。 さて実際に物件を探してみて、更にこの分析の精度をよくするにはどうすりゃいいかと考えたメ…
<
<
<< part.2 モデル化のイメージ 地価の分布をモデル化します。 分布の傾向を考えて、数式に当てはめていくことを考えます。 といってもイメージしづらいので例をば。 例えば、図のような分布があったとき 直線で表すことができそうです。y = ax + b という式…
<< part.1 物件の分析の前にもう少し。 データ見直し 前回、地価をそのままプロットして、アチャー(ノ∀`)となったので、少し改良しましょう。 まず、飛び抜けて地価が高いところを調べると、住宅街ではなくて商業地用の土地とかでした。さすがにそれはのけてお…
導入 東京都内に引っ越したいです。突然ですが。 ただ田舎者なため、大都会TOKYOの土地勘も無ければ知り合いも少ないため、データからお得な地域を割り出して参考にしようかと思います。 ~~ここまで強引な導入。 最終的な目標は、 東京都内の「家賃モデル…
前回の鳥の分類実験に味をしめたので、画像分類をもう少し本格的に作りこんで何かしら形にしようと思います。 ということで今回は鳥画像分類に付け足し的に機能を追加。 画像の色を調べるときにどの色がどのぐらいあるかってのが可視化できれば嬉しいので、…
よし、鳥の画像を解析して種類を当てるアプリを目指して画像処理の実験をしてみました。とりあえずのメモです。 がっつり作ったというより、お試しの検証テストなのでさらっとだけまとめます。 鳥画像データの分類実験 データ集め 思いついた鳥の画像を16種…