Parakushtet
Hapi 1: Përditësoni sistemin
Hapi 2: Instaloni Java
Hapi 3: Instaloni Hadoop
Hapi 4: Ekzekutoni dhe provoni Hadoop
Apache Hadoop është një mjet i përpunimit të të dhënave të mëdha me burim të hapur, i përdorur gjerësisht në industrinë e IT.
Në varësi të madhësisë, llojit dhe shkallës së të dhënave tuaja, mund të vendosni Hadoop në modalitetin e pavarur ose grupor.
Në këtë tutorial të fokusuar tek fillestarët, ne do të instalojmë Hadoop në modalitetin e pavarur në një shembull të serverit CentOS 7.
Parakushtet
- Një shembull i serverit Vultr CentOS 7 x64 i sapokrijuar.
- Një përdorues sudo .
Hapi 1: Përditësoni sistemin
Hyni si përdorues sudo dhe më pas përditësoni sistemin CentOS 7 në statusin më të fundit të qëndrueshëm:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Pasi serveri të jetë në linjë, regjistrohu përsëri.
Hapi 2: Instaloni Java
Hadoop është i bazuar në Java dhe OpenJDK 8 është versioni i rekomanduar për versionin më të fundit të qëndrueshëm.
Instaloni OpenJDK 8 JRE duke përdorur YUM:
sudo yum install -y java-1.8.0-openjdk
Verifikoni instalimin e OpenJDK 8 JRE:
java -version
Prodhimi duhet të ngjajë:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Hapi 3: Instaloni Hadoop
Mund ta gjeni gjithmonë URL-në e shkarkimit të versionit më të fundit të Hadoop nga faqja zyrtare e lëshimit të Apache Hadoop . Në kohën e shkrimit të këtij artikulli, versioni më i fundit i qëndrueshëm i Hadoop është 2.7.3.
Shkarkoni arkivin binar të Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Shkarkoni skedarin e kontrollit që përputhet:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Instaloni mjetin kontrollues:
sudo yum install perl-Digest-SHA
Llogaritni vlerën SHA256 të arkivit Hadoop:
shasum -a 256 hadoop-2.7.3.tar.gz
Shfaqni përmbajtjen e skedarit hadoop-2.7.3.tar.gz.mdsdhe sigurohuni që dy vlerat SHA256 të jenë identike:
cat hadoop-2.7.3.tar.gz.mds
Zhzip arkivin në një vend të caktuar:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Përpara se të mund të ekzekutoni Hadoop siç duhet, duhet të specifikoni vendndodhjen e shtëpisë së Java për të.
Hapni skedarin e konfigurimit të mjedisit Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shduke përdorur viose redaktuesin tuaj të preferuar të tekstit:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Gjeni rreshtin:
export JAVA_HOME=$
Zëvendësojeni me:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Ky cilësim do të bëjë që Hadoop të përdorë gjithmonë vendndodhjen e instalimit të paracaktuar të Java.
Ruani dhe hiqni dorë:
:wq!
Ju mund të shtoni shtegun e programit Hadoop në PATHvariablin e mjedisit për lehtësinë tuaj:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Hapi 4: Ekzekutoni dhe provoni Hadoop
Thjesht ekzekutoni komandën hadoopdhe do t'ju kërkohet të përdorni komandën hadoop dhe parametrat e saj të ndryshëm.
Këtu, mund të përdorni një shembull të integruar për të testuar instalimin tuaj Hadoop.
Përgatitni burimin e të dhënave:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Përdorni Hadoop së bashku me grep për të nxjerrë rezultatin:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Prodhimi duhet të jetë:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Më në fund, mund të shikoni përmbajtjen e skedarëve dalës:
cat ~/output/*
Rezultati duhet të jetë:
6 principal
1 principal.
Tani jeni gati për të eksploruar Hadoop.