Requisits previs
Pas 1: actualitzeu el sistema
Pas 2: instal·leu Java
Pas 3: instal·leu Hadoop
Pas 4: executeu i proveu Hadoop
Apache Hadoop és una eina de processament de Big Data de codi obert, molt utilitzada a la indústria de les TI.
Depenent de la mida, el tipus i l'escala de les vostres dades, podeu implementar Hadoop en mode autònom o en clúster.
En aquest tutorial centrat en principiants, instal·larem Hadoop en mode autònom en una instància de servidor CentOS 7.
Requisits previs
- Una instància de servidor Vultr CentOS 7 x64 de nova creació.
- Un usuari de sudo .
Pas 1: actualitzeu el sistema
Inicieu sessió com a usuari sudo i, a continuació, actualitzeu el sistema CentOS 7 a l'últim estat estable:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Un cop el servidor estigui en línia, torneu a iniciar sessió.
Pas 2: instal·leu Java
Hadoop està basat en Java i OpenJDK 8 és la versió recomanada per a la darrera versió estable.
Instal·leu OpenJDK 8 JRE mitjançant YUM:
sudo yum install -y java-1.8.0-openjdk
Verifiqueu la instal·lació d'OpenJDK 8 JRE:
java -version
La sortida hauria de semblar-se a:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Pas 3: instal·leu Hadoop
Sempre podeu trobar l'URL de descàrrega de l'última versió d'Hadoop a la pàgina oficial de llançament d'Apache Hadoop . En el moment d'escriure aquest article, l'última versió estable de Hadoop és la 2.7.3.
Descarrega l'arxiu binari de Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Baixeu el fitxer de suma de comprovació coincident:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Instal·leu l'eina de suma de comprovació:
sudo yum install perl-Digest-SHA
Calcula el valor SHA256 de l'arxiu Hadoop:
shasum -a 256 hadoop-2.7.3.tar.gz
Mostra el contingut del fitxer hadoop-2.7.3.tar.gz.mdsi assegureu-vos que els dos valors SHA256 són idèntics:
cat hadoop-2.7.3.tar.gz.mds
Descomprimiu l'arxiu a una ubicació designada:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Abans de poder executar Hadoop correctament, heu d'especificar la ubicació inicial de Java.
Obriu el fitxer de configuració de l'entorn Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shamb el vivostre editor de text preferit:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Troba la línia:
export JAVA_HOME=$
Substituïu-lo per:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Aquesta configuració farà que Hadoop utilitzi sempre la ubicació d'instal·lació predeterminada de Java.
Desa i surt:
:wq!
Podeu afegir la ruta del programa Hadoop a la PATHvariable d'entorn per a la vostra comoditat:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Pas 4: executeu i proveu Hadoop
Simplement executeu l'ordre hadoopi se us demanarà l'ús de l'ordre hadoop i els seus diferents paràmetres.
Aquí, podeu utilitzar un exemple integrat per provar la vostra instal·lació de Hadoop.
Prepareu la font de dades:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Utilitzeu Hadoop juntament amb grep per produir el resultat:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
La sortida hauria de ser:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Finalment, podeu veure el contingut dels fitxers de sortida:
cat ~/output/*
El resultat hauria de ser:
6 principal
1 principal.
Ara esteu preparat per explorar Hadoop.