Hadoop 實踐入門 – JAVA編程語言程序開發技術文章

1           實驗環境搭建

1.1          準備工作

ubuntu/redhat

JDK/openjdk

Hadoop

Eclipse

vmvare/virtureBox

1.1.1     ubuntu 安裝

       下載最新版本ubuntu 11.10。

       安裝註意事項:

       1、關閉防火墻:shell命令 sudo ufw disable。不關閉有可能造成master slave 通信失敗。出現連接超時,重連錯誤。可以通過指定iptables 實現端口過濾。

       2、安裝ssh(用於master和slave遠程登錄):sudo apt-get install ssh

1.1.2     安裝jdk

       1)解壓sun jdk壓縮包到指定的文件夾。

              sudo vi /etc/profile 或者 etc nano /etc/profile

        配置/etc/profile,加入:
export JAVA_HOME=/usr/java/jdk1.6.0_22

export JRE_HOME=/usr/java/jdk1.6.0_22/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

    2)可以使用openjdk sudo apt-get insall open-jdk-6 或者通過軟件中心。

 

驗證 shell命令 :java -version 看是否與你的版本號一致

1.1.3 安裝hadoop

在每臺機器上相同用戶的home根目錄下解壓,hadoop-0.20.2.tar.gz 配置conf/hadoop-env.sh文件。 增加 export JAVA_HOME =/usr/lib/jvm/java-6-openjdk 這裡修改為你的jdk的安裝位置。

 

1.2          偽分佈式搭建

              Hadoop可以在單電商以為分佈分佈式模式運行,用不同的java進程模擬分佈式中的中的各類節點namenode,datanode,jobtracker,tasktracker,secondary namenode

1.2.1     hadoop配置

       hadoop 0.2.0.2之後需要修改core-site.xml\hdfs-site.xml 以及 mapred-site.xml

配置文件如下:

core-site.xml 配置核心內容,其中fs.default.name 為hdfs地址;tmp為hadoop.tnp.dir為臨時文件

<configuration>

     <property>

         <name>fs.default.name</name>

         <value>hdfs://localhost:49000</value>

     </property>

<property>

<name>hadoop.tmp.dir</name>

 <value>/home/hadooper/hadooptmp</value>

     </property>

</configuration>

註意事項:一定要指定,相同的用戶名,並且tmp一定要設置,否則會出現權限問題。導致hadoop啟動失敗。也可以通過chmod 命令來改變默認tmp的權限。默認tmp路徑為:/usr/tmp。推薦第一種方式。

 

hdfs-site.xml 設置 hdfs 參數

<configuration>

     <property>

         <name>dfs.replication</name>

         <value>1</value>

     </property>

</configuration>

這裡dfs.replication指塊的副本數。副本數具體策略可參加見hadoop官方指南。

 

mapred-site.xml 文件的修改

<configuration>

     <property>

         <name>mapred.job.tracker</name>

         <value>localhost:49001</value>

     </property>

</configuration>

這個設置瞭jobtracker的端口。

註意端口的選擇一定要恰當,尤其是集群的配置。默認的9000和9001很容易被ubuntu中其他進程占用,導致datanode失效,因此選擇沒有占用的49000 和49001。筆者,曾經就曾困擾與此。集群配置中將再次強調。

 

1.2.2     ssh設置

因為master需要訪問datanode因此需要免密碼ssh

設置方法:

ssh-keygen -t rsa然後一直按回車

完成後,在home跟目錄下會產生隱藏文件夾.ssh

cd .ssh

之後ls 查看文件

cp id_rsa.pub authorized_keys

測試:

ssh localhost發現鏈接成功,並且無需密碼。

1.2.3     hadoop運行

在hadoop安裝目錄下:

首先 bin/hadoop namenode -format格式化文件系統

然後 bin/start-all.sh 來啟動守護進程。

利用java 命令 jps 查看進程。或者通過 網址:localhost:50070 localhost:50030來查看是否成功。

 

1.3          集群搭建

如上所述安裝ubuntu 並且擁有相同用戶。安裝jdk ,安裝hadoop。配置jdk路徑等。

1.3.1     主機信息:

機器名 IP地址 作用
Node1 192.168.234.128 NameNode、JobTracker
Node2 192.168.234.129 DataNode、TaskTracker
Node3 192.168.234.130 DataNode、TaskTracker

 

修改每臺機器上的hosts

sudo vi /etc/hosts

192.168.1.31   node1

192.168.1.32  node2

192.168.1.33   node3

1.3.2     ssh 設置

           把NameNode 上的id_dsa.pub 文件追加到DataNode 的authorized_keys 內:

           a. 拷貝NameNode 的id_dsa.pub 文件:

           $ scp id_dsa.pub hadooper@node2:/home/hadoop/

           b. 登錄node2,執行

                       $ cat id_dsa.pub >> .ssh/authorized_keys

          在所有datanode上執行相同的操作。

          驗證:從node1

          ssh node2

          exit

          ssh node3

          exit

          如果全部免密碼登錄則成功

1.3.3     配置hadoop

配置conf/masters 和conf/slaves 文件

Masters

node1

Slaves

node2

node3

 

core-site mapred-site 和hdfs-site 和偽分佈配置基本相同.隻是對應地址,localhost換成瞭namenode的名稱,node1。

q            配置conf/core-site.xml

<configuration>

 <property>

    <name>fs.default.name</name>

    <value>hdfs://node1:49000</value>

 </property>

</configuration>

仍然註意端口,在運行時如果datanode連接不上namenode,有可能是由於端口問題。換一個端口

1.3.4     運行hadoop

首先格式化文件系統:$ bin/hadoop namenode –format

啟動Hadoop集群:

$ bin/start-all.sh

停止Hadoop集群:

$ bin/stop-all.sh

查看集群狀態:$ bin/hadoop dfsadmin -report

Hadoop 的web 方式查看

JobTracker:http://node1:50030

NameNode:http://node1:50070

 

 

1.4          eclipse 插件安裝

安裝eclipse 隻需要把hadoop/contrib/eclipse-plus 下的包考到eclipse的plus裡即可。(該方法有問題,因為該插件隻能部分支持eclipse3.6,如果需要全部支持安裝eclipse3.4以下版本,或修改該插件較復雜)。如果有誰修改瞭適合3.6以上的插件roymoro@gmail.com.幫我發一份。

 

作者:scorpio小蠍

發佈留言