Előfeltételek
1. lépés: Frissítse a rendszert
2. lépés: Telepítse a Java-t
3. lépés: Telepítse a Hadoop-ot
4. lépés: Futtassa és tesztelje a Hadoop-ot
Az Apache Hadoop egy nyílt forráskódú Big Data feldolgozó eszköz, amelyet széles körben használnak az IT-iparban.
Az adatok méretétől, típusától és méretétől függően telepítheti a Hadoop-ot önálló vagy fürt módban.
Ebben a kezdőknek szóló oktatóanyagban a Hadoop-ot önálló módban telepítjük egy CentOS 7 kiszolgálópéldányra.
Előfeltételek
- Egy újonnan létrehozott Vultr CentOS 7 x64 szerverpéldány.
- Egy sudo felhasználó .
1. lépés: Frissítse a rendszert
Jelentkezzen be sudo felhasználóként, majd frissítse a CentOS 7 rendszert a legújabb stabil állapotra:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Miután a szerver online, jelentkezzen be újra.
2. lépés: Telepítse a Java-t
A Hadoop Java-alapú, és az OpenJDK 8 a javasolt verzió a legújabb stabil verzióhoz.
Az OpenJDK 8 JRE telepítése YUM használatával:
sudo yum install -y java-1.8.0-openjdk
Ellenőrizze az OpenJDK 8 JRE telepítését:
java -version
A kimenetnek hasonlónak kell lennie:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
3. lépés: Telepítse a Hadoop-ot
A Hadoop legújabb verziójának letöltési URL-jét mindig megtalálhatja az Apache Hadoop hivatalos kiadási oldalán . A cikk írásakor a Hadoop legújabb stabil verziója a 2.7.3.
Töltse le a Hadoop 2.7.3 bináris archívumát:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Töltse le a megfelelő ellenőrzőösszeg fájlt:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Telepítse az ellenőrzőösszeg eszközt:
sudo yum install perl-Digest-SHA
Számítsa ki a Hadoop archívum SHA256 értékét:
shasum -a 256 hadoop-2.7.3.tar.gz
Jelenítse meg a fájl tartalmát hadoop-2.7.3.tar.gz.mds, és győződjön meg arról, hogy a két SHA256 érték megegyezik:
cat hadoop-2.7.3.tar.gz.mds
Csomagolja ki az archívumot egy kijelölt helyre:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
A Hadoop megfelelő futtatása előtt meg kell adnia a Java otthoni helyét.
Nyissa meg a Hadoop környezet konfigurációs fájl /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shsegítségével vi, vagy a kedvenc szövegszerkesztővel:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Keresse meg a sort:
export JAVA_HOME=$
Cserélje ki:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Ezzel a beállítással a Hadoop mindig a Java alapértelmezett telepítési helyét használja.
Mentés és kilépés:
:wq!
PATHKényelme érdekében hozzáadhatja a Hadoop program elérési útját a környezeti változóhoz:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
4. lépés: Futtassa és tesztelje a Hadoop-ot
Egyszerűen hajtsa végre a parancsot hadoop, és a rendszer felkéri a hadoop parancs és annak különféle paramétereinek használatát.
Itt egy beépített példa segítségével tesztelheti a Hadoop telepítését.
Készítse elő az adatforrást:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Használja a Hadoop-ot a grep-pel együtt az eredmény kiadásához:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
A kimenetnek a következőnek kell lennie:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Végül megtekintheti a kimeneti fájlok tartalmát:
cat ~/output/*
Az eredmény a következő legyen:
6 principal
1 principal.
Most már készen áll a Hadoop felfedezésére.