CentOSにHadoopメモ
いろんなところにメモブログやメモwikiを作りすぎてアウトプット先が分散してしまっているので徐々にここのブログに集めていきます。
過去にCentOS7にHadoop(1系)をセットアップしたときの個人用メモなので、古かったり間違ってたりするかもしれませんが、記録として載せておきます。
java -version#うごくね
#依存性無視インストール、いいのかどうか。#ファイルをなんか用意して#ワードカウントを実行#へ<property><name>io.sort.mb</name><value>10</value></property>#を追加。#これで動いた。スタンドアロンモードだけど。
ここから擬似分散モードへ拡張
#の48付近PermitRootLogin no#へ#> 追記:#> RSAにしようね#パスワードなしでログインできるように
#再起動して有効に
systemctl restart sshd
hadoop設定再び
#にhdfs領域のパス書く<property><name>hadoop.tmp.dir</name><value>/hadoop</value></property><property><name>fs.default.name</name></property>#/hadoopにした chmod 777 にしとくに<property><name>dfs.replication</name><value>1</value></property>mapred-site.xmlに<property><name>mapred.job.tracker</name><value>localhost:9001</value></property>
#そしたらhadoopデーモン起動(か再起動)#初回は/etc/init.d/hadoop-namenode format#次回以降はフォーマットなし#再起動用スクリプト作っとく/etc/init.d/hadoop-tasktracker stop/etc/init.d/hadoop-jobtracker stop/etc/init.d/hadoop-datanode stop/etc/init.d/hadoop-namenode stop/etc/init.d/hadoop-namenode start/etc/init.d/hadoop-datanode start/etc/init.d/hadoop-jobtracker start/etc/init.d/hadoop-tasktracker start
hadoop fs -ls #でエラーでないかhadoop fs -put /var/log/dmesg input #でエラーでないか 追加されたか#あ、だめかも
#hdfsユーザが作られてるのでまずパスワード設定
sudo passwd hdfshadoop fs -chmod 777 /#でだれでも書き込めるようにしておく#(hdfsユーザじゃないとできないかも)#ワードカウント実験用hadoop fs -rmr output#単語出現数順に並べてローカルにもってきた。at 10not 9root 7Host 4#こんな感じになってれば成功。
追加
mapとreduceの数を調整mapred-site.xml<property><name>mapred.map.tasks</name><value>3</value></property><property><name>mapred.reduce.tasks</name><value>3</value></property><property><name>mapred.tasktracker.map.tasks.maximum</name><value>3</value></property><property><name>mapred.tasktracker.reduce.tasks.maximum</name><value>3</value></property>追記
R
#依存性やらなんやらでrpmいれれなかったのでtar.gzから入れてみる#R-3.1.1.tar.gz を解凍して/opt/R#で./configure #実行してエラーになるので./configure --with-x=no --with-readline=no#してmake#してmake install#ふぅ。