Forutsetninger
Trinn 1: Oppdater systemet
Trinn 2: Installer Java
Trinn 3: Installer Hadoop
Trinn 4: Kjør og test Hadoop
Apache Hadoop er et åpen kildekode Big Data-behandlingsverktøy, mye brukt i IT-bransjen.
Avhengig av størrelsen, typen og skalaen til dataene dine, kan du distribuere Hadoop i frittstående eller klyngemodus.
I denne nybegynnerfokuserte opplæringen vil vi installere Hadoop i frittstående modus på en CentOS 7-serverforekomst.
Forutsetninger
- En nyopprettet Vultr CentOS 7 x64-serverforekomst.
- En sudo-bruker .
Trinn 1: Oppdater systemet
Logg på som sudo-bruker, og oppdater deretter CentOS 7-systemet til den siste stabile statusen:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Når serveren er online, logger du på igjen.
Trinn 2: Installer Java
Hadoop er Java-basert og OpenJDK 8 er den anbefalte versjonen for den siste stabile versjonen.
Installer OpenJDK 8 JRE med YUM:
sudo yum install -y java-1.8.0-openjdk
Bekreft installasjonen av OpenJDK 8 JRE:
java -version
Utgangen skal ligne:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Trinn 3: Installer Hadoop
Du kan alltid finne nedlastings-URLen til den nyeste versjonen av Hadoop fra den offisielle Apache Hadoop-utgivelsessiden . På tidspunktet for skriving av denne artikkelen er den siste stabile versjonen av Hadoop 2.7.3.
Last ned det binære arkivet til Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Last ned den samsvarende sjekksumfilen:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Installer kontrollsumverktøyet:
sudo yum install perl-Digest-SHA
Beregn SHA256-verdien til Hadoop-arkivet:
shasum -a 256 hadoop-2.7.3.tar.gz
Vis innholdet i filen hadoop-2.7.3.tar.gz.mds, og sørg for at de to SHA256-verdiene er identiske:
cat hadoop-2.7.3.tar.gz.mds
Pakk ut arkivet til et angitt sted:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Før du kan kjøre Hadoop riktig, må du spesifisere Java-hjemmeplasseringen for den.
Åpne Hadoop-miljøkonfigurasjonsfilen /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shved å bruke vieller din favoritt tekstredigerer:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Finn linjen:
export JAVA_HOME=$
Erstatt den med:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Denne innstillingen vil gjøre at Hadoop alltid bruker standard installasjonssted for Java.
Lagre og avslutt:
:wq!
Du kan legge til banen til Hadoop-programmet til PATHmiljøvariabelen for enkelhets skyld:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Trinn 4: Kjør og test Hadoop
Bare utfør kommandoen hadoop, og du vil bli spurt om bruken av hadoop-kommandoen og dens forskjellige parametere.
Her kan du bruke et innebygd eksempel for å teste Hadoop-installasjonen.
Forbered datakilden:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Bruk Hadoop sammen med grep for å sende ut resultatet:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Utgangen skal være:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Til slutt kan du se innholdet i utdatafilene:
cat ~/output/*
Resultatet bør være:
6 principal
1 principal.
Du er nå klar til å utforske Hadoop.