もちろん無料の動画とはいえ、有名な大学教授の方がしっかりカリキュラムを組んでいるので当然といえば当然です。ただ、「手とり足とり教えてくれるセミナー」ではなく、「勉強してくること前提」「授業では60%しかわからなくても、資料あげるから40%は自分で埋めてこい」というぐらいのノリな印象です。いろいろと学生の頃の記憶がフラッシュバックしました。ほんとに。

ということで内容ですが、２週目は１週目に続いて重回帰の話です。

ただし、よくある「回帰ってこういう分布になんとなく線ひくんだよー」というような説明ではなく、大学の講義らしくしっかりと理論立てて説明してくれるので非常に勉強になります。

数値解析的な解き方（行列計算）と最適化的な解き方（最急降下法）を実際に数式やOctaveを使って解説してくれます。特に（機械学習コースなので）最急降下法を中心に学んでいくわけですが、コスト関数のグラフ化を見ながらどういう風にパラメータが最適化されていくのかというのを見てみたり、学習係数の大小による違いを見たりと、重回帰の中身の原理をしっかりと理解できる内容となっている印象です。

～～

あと個人的に納得したのが多変数で回帰するときに、各変数のスケールが違いすぎる場合（変数Aは-5～+5、変数Bは0~1000みたいな場合）収束が著しく遅くなるということと、その場合にスケールが大体合うように標準化するのがよいということでした。

これは以前自分でパーセプトロンを組んだ時になんとなく感覚ではわかっていたことですがしっかりと現象と対策を理解できました。

～～

そしてOctaveの基礎的な使い方をレクチャーされたあと課題となりました。

（と、ここで「基礎的な使い方をレクチャー」とは書いたものの、これも覚えきれないぐらいの機能をレクチャーされたわけですが。。。）

課題は最急降下法で回帰をするプログラムの作成（穴埋め）です。

記述量自体は少ないですが、コスト関数や更新式周りをきちんと理解しないとできない内容です。

まだ序盤だと思って舐めていたら結構苦労しました。

特に自分の場合、つい先日ハトでもわかる単純パーセプトロン - チラシの裏の設計書というような内容がかなり近いものを勉強していて、Octaveも昔使ったことがあるというアドバンテージがあるにも関わらず課題でミス連発したりとなかなかボロボロでした。

２週目でこれって大丈夫かなぁと思いながらさぁ3週目いってみようー。

ということで、もしこの講義を受けようかと思って情報を探している方、

わりと気合を入れる必要がありますが、間違いなく「機械学習の基礎」が身に付きます。「機械学習のなんとなくのイメージ」ではなく学問としての基礎が身につく非常にいい講義ですので頑張ってみましょう。

2017-03-20

CentOSにHadoopメモ

いろんなところにメモブログやメモwikiを作りすぎてアウトプット先が分散してしまっているので徐々にここのブログに集めていきます。

過去にCentOS7にHadoop（1系）をセットアップしたときの個人用メモなので、古かったり間違ってたりするかもしれませんが、記録として載せておきます。

javaインストール

rpm -ivh jdk-8u25-linux-x64.rpm

java -version

#うごくね

hadoopインストール

sudo rpm -ivh hadoop-1.2.1-1.x86_64.rpm --force

#依存性無視インストール、いいのかどうか。

#ファイルをなんか用意して

hadoop jar /usr/share/hadoop/hadoop-examples-1.0.4.jar wordcount input output

#ワードカウントを実行

/etc/hadoop/mapred-site.xml

#へ

<property>

<name>io.sort.mb</name>

<value>10</value>

</property>

#を追加。

#これで動いた。スタンドアロンモードだけど。

ここから擬似分散モードへ拡張

ssh

/etc/ssh/sshd_config

#の48付近

PermitRootLogin no

#へ

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

#> 追記：

#> RSAにしようね

#> ssh-keygen -t rsa

#パスワードなしでログインできるように

#再起動して有効に

systemctl restart sshd

hadoop設定再び

/etc/hadoop/core-site.xml

#にhdfs領域のパス書く

<property>

<name>hadoop.tmp.dir</name>

<value>/hadoop</value>

</property>

　<property>

　<name>fs.default.name</name>

　<value>hdfs://localhost:9000</value>

</property>

#/hadoopにした　chmod 777 にしとく

hdfs-site.xml

に

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

mapred-site.xml

に

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

#そしたらhadoopデーモン起動（か再起動）

#初回は

/etc/init.d/hadoop-namenode format

#次回以降はフォーマットなし

#再起動用スクリプト作っとく

/etc/init.d/hadoop-tasktracker stop

/etc/init.d/hadoop-jobtracker stop

/etc/init.d/hadoop-datanode stop

/etc/init.d/hadoop-namenode stop

/etc/init.d/hadoop-namenode start

/etc/init.d/hadoop-datanode start

/etc/init.d/hadoop-jobtracker start

/etc/init.d/hadoop-tasktracker start

hadoop fs -ls #でエラーでないか

hadoop fs -put /var/log/dmesg input　#でエラーでないか　追加されたか

#あ、だめかも

#hdfsユーザが作られてるのでまずパスワード設定

sudo passwd hdfs

hadoop fs -chmod 777 /

#でだれでも書き込めるようにしておく

#（hdfsユーザじゃないとできないかも）

#ワードカウント実験用

hadoop fs -rmr output

hadoop jar /usr/share/hadoop/hadoop-examples-1.2.1.jar wordcount input output

hadoop fs -cat output/part-r-00* | sort -t $'\t' -n -k2,2 -r > out.csv

#単語出現数順に並べてローカルにもってきた。

at 10

not 9

root 7

Host 4

#こんな感じになってれば成功。

追加

mapとreduceの数を調整

mapred-site.xml

<property>

<name>mapred.map.tasks</name>

<value>3</value>

</property>

<property>

<name>mapred.reduce.tasks</name>

<value>3</value>

</property>

<property>

<name>mapred.tasktracker.map.tasks.maximum</name>

<value>3</value>

</property>

<property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

<value>3</value>

</property>

追記

#依存性やらなんやらでrpmいれれなかったのでtar.gzから入れてみる

#R-3.1.1.tar.gz を解凍して

/opt/R　

#で

./configure #実行してエラーになるので

./configure --with-x=no --with-readline=no

#して

make

#して

make install

#ふぅ。

Vim

yum -y install vim-enhanced