Cum se instalează și se configurează Apache Hadoop pe un singur nod în CentOS 7


Apache Hadoop este un cadru Open Source pentru stocarea și procesarea datelor distribuite de Big Data în clustere de computere. Proiectul se bazează pe următoarele componente:

  1. Hadoop Common – conține bibliotecile și utilitățile Java necesare altor module Hadoop.
  2. HDFS – Hadoop Distributed File System – Un sistem de fișiere scalabil bazat pe Java distribuit pe mai multe noduri.
  3. MapReduce – cadru YARN pentru procesarea paralelă a datelor mari.
  4. Hadoop YARN: un cadru pentru gestionarea resurselor clusterului.

Acest articol vă va ghida despre cum puteți instala Apache Hadoop pe un cluster cu un singur nod în CentOS 7 (funcționează și pentru RHEL 7 și Fedora 23+ > versiuni). Acest tip de configurație este, de asemenea, menționat ca Mod pseudo-distribuit Hadoop.

Pasul 1: Instalați Java pe CentOS 7

1. Înainte de a continua cu instalarea Java, mai întâi conectați-vă cu utilizatorul root sau cu un utilizator cu privilegii root configurați numele de gazdă a mașinii dvs. cu următoarea comandă.

# hostnamectl set-hostname master

De asemenea, adăugați o înregistrare nouă în fișierul hosts cu propriul FQDN al mașinii pentru a indica adresa IP a sistemului dumneavoastră.

# vi /etc/hosts

Adăugați rândul de mai jos:

192.168.1.41 master.hadoop.lan

Înlocuiți numele de gazdă de mai sus și înregistrările FQDN cu propriile setări.

2. Apoi, accesați pagina de descărcare Oracle Java și luați cea mai recentă versiune a Java SE Development Kit 8 pe sistemul dvs. cu ajutorul curl comanda:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. După ce descărcarea binară Java se termină, instalați pachetul lansând comanda de mai jos:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Pasul 2: Instalați Hadoop Framework în CentOS 7

4. Apoi, creați un nou cont de utilizator pe sistemul dvs. fără puteri root pe care îl vom folosi pentru calea de instalare Hadoop și mediul de lucru. Noul director principal al contului se va afla în directorul /opt/hadoop.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. La pasul următor, vizitați pagina Apache Hadoop pentru a obține linkul pentru cea mai recentă versiune stabilă și descărcați arhiva pe sistemul dvs.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Extrageți arhiva și copiați conținutul directorului în calea de pornire a contului Hadoop. De asemenea, asigurați-vă că modificați permisiunile fișierelor copiate în consecință.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Apoi, conectați-vă cu utilizatorul hadoop și configurați Hadoop și variabilele de mediu Java pe sistemul dvs. prin editarea 7..bash_profile fișier.

# su - hadoop
$ vi .bash_profile

Adăugați următoarele rânduri la sfârșitul fișierului:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Acum, inițializați variabilele de mediu și verificați starea acestora lansând comenzile de mai jos:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. În cele din urmă, configurați autentificarea bazată pe chei ssh pentru contul hadoop executând comenzile de mai jos (înlocuiți numele de gazdă sau FQDN > împotriva comenzii ssh-copy-id în consecință).

De asemenea, lăsați necompletat fraza de acces pentru a vă conecta automat prin ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan