Preduvjeti
Korak 1: Ažurirajte sustav
Korak 2: Instalirajte Javu
Korak 3: Instalirajte Hadoop
Korak 4: Pokrenite i testirajte Hadoop
Apache Hadoop je alat za obradu velikih podataka otvorenog koda koji se široko koristi u IT industriji.
Ovisno o veličini, vrsti i mjerilu vaših podataka, Hadoop možete implementirati u samostalnom ili cluster načinu rada.
U ovom vodiču usmjerenom na početnike, Hadoop ćemo instalirati u samostalnom načinu rada na instanci poslužitelja CentOS 7.
Preduvjeti
- Novostvorena instanca poslužitelja Vultr CentOS 7 x64.
- Korisnik sudoa .
Korak 1: Ažurirajte sustav
Prijavite se kao sudo korisnik, a zatim ažurirajte sustav CentOS 7 na najnoviji stabilan status:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Nakon što je poslužitelj online, ponovno se prijavite.
Korak 2: Instalirajte Javu
Hadoop se temelji na Javi, a OpenJDK 8 je preporučena verzija za najnoviju stabilnu verziju.
Instalirajte OpenJDK 8 JRE koristeći YUM:
sudo yum install -y java-1.8.0-openjdk
Provjerite instalaciju OpenJDK 8 JRE:
java -version
Izlaz bi trebao izgledati:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Korak 3: Instalirajte Hadoop
URL za preuzimanje najnovije verzije Hadoopa uvijek možete pronaći na službenoj stranici izdanja Apache Hadoop-a . U vrijeme pisanja ovog članka, najnovija stabilna verzija Hadoopa je 2.7.3.
Preuzmite binarnu arhivu Hadoopa 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Preuzmite odgovarajuću datoteku kontrolnog zbroja:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Instalirajte alat checksum:
sudo yum install perl-Digest-SHA
Izračunajte SHA256 vrijednost Hadoop arhive:
shasum -a 256 hadoop-2.7.3.tar.gz
Prikažite sadržaj datoteke hadoop-2.7.3.tar.gz.mdsi provjerite jesu li dvije SHA256 vrijednosti identične:
cat hadoop-2.7.3.tar.gz.mds
Raspakirajte arhivu na određeno mjesto:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Prije nego što možete ispravno pokrenuti Hadoop, morate odrediti početnu lokaciju Jave za njega.
Otvorite konfiguracijsku datoteku Hadoop okruženja /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shkoristeći viili svoj omiljeni uređivač teksta:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Pronađite liniju:
export JAVA_HOME=$
Zamijenite ga sa:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Ova će postavka učiniti da Hadoop uvijek koristi zadanu lokaciju za instalaciju Jave.
Spremi i zatvori:
:wq!
Možete dodati putanju Hadoop programa u PATHvarijablu okruženja radi svoje udobnosti:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Korak 4: Pokrenite i testirajte Hadoop
Jednostavno izvršite naredbu hadoopi od vas će biti zatraženo korištenje naredbe hadoop i njezinih različitih parametara.
Ovdje možete koristiti ugrađeni primjer za testiranje svoje Hadoop instalacije.
Pripremite izvor podataka:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Koristite Hadoop zajedno s grep za ispis rezultata:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Izlaz bi trebao biti:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Konačno, možete vidjeti sadržaj izlaznih datoteka:
cat ~/output/*
Rezultat bi trebao biti:
6 principal
1 principal.
Sada ste spremni istražiti Hadoop.