Προαπαιτούμενα
Βήμα 1: Ενημερώστε το σύστημα
Βήμα 2: Εγκατάσταση Java
Βήμα 3: Εγκαταστήστε το Hadoop
Βήμα 4: Εκτελέστε και δοκιμάστε το Hadoop
Το Apache Hadoop είναι ένα εργαλείο επεξεργασίας Big Data ανοιχτού κώδικα, που χρησιμοποιείται ευρέως στη βιομηχανία πληροφορικής.
Ανάλογα με το μέγεθος, τον τύπο και την κλίμακα των δεδομένων σας, μπορείτε να αναπτύξετε το Hadoop σε αυτόνομη λειτουργία ή σε λειτουργία συμπλέγματος.
Σε αυτό το σεμινάριο που εστιάζει σε αρχάριους, θα εγκαταστήσουμε το Hadoop σε αυτόνομη λειτουργία σε μια παρουσία διακομιστή CentOS 7.
Προαπαιτούμενα
- Μια νεοδημιουργημένη παρουσία διακομιστή Vultr CentOS 7 x64.
- Ένας χρήστης sudo .
Βήμα 1: Ενημερώστε το σύστημα
Συνδεθείτε ως χρήστης sudo και, στη συνέχεια, ενημερώστε το σύστημα CentOS 7 στην πιο πρόσφατη σταθερή κατάσταση:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Μόλις ο διακομιστής συνδεθεί, συνδεθείτε ξανά.
Βήμα 2: Εγκατάσταση Java
Το Hadoop βασίζεται σε Java και το OpenJDK 8 είναι η προτεινόμενη έκδοση για την πιο πρόσφατη σταθερή έκδοση.
Εγκαταστήστε το OpenJDK 8 JRE χρησιμοποιώντας το YUM:
sudo yum install -y java-1.8.0-openjdk
Επαληθεύστε την εγκατάσταση του OpenJDK 8 JRE:
java -version
Η έξοδος πρέπει να μοιάζει με:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Βήμα 3: Εγκαταστήστε το Hadoop
Μπορείτε πάντα να βρείτε τη διεύθυνση URL λήψης της πιο πρόσφατης έκδοσης του Hadoop από την επίσημη σελίδα έκδοσης του Apache Hadoop . Τη στιγμή της σύνταξης αυτού του άρθρου, η τελευταία σταθερή έκδοση του Hadoop είναι η 2.7.3.
Κατεβάστε το δυαδικό αρχείο του Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Κατεβάστε το αντίστοιχο αρχείο αθροίσματος ελέγχου:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Εγκαταστήστε το εργαλείο checksum:
sudo yum install perl-Digest-SHA
Υπολογίστε την τιμή SHA256 του αρχείου Hadoop:
shasum -a 256 hadoop-2.7.3.tar.gz
Εμφανίστε το περιεχόμενο του αρχείου hadoop-2.7.3.tar.gz.mdsκαι βεβαιωθείτε ότι οι δύο τιμές SHA256 είναι ίδιες:
cat hadoop-2.7.3.tar.gz.mds
Αποσυμπιέστε το αρχείο σε μια καθορισμένη τοποθεσία:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Για να μπορέσετε να εκτελέσετε σωστά το Hadoop, πρέπει να καθορίσετε την αρχική τοποθεσία Java για αυτό.
Ανοίξτε το αρχείο διαμόρφωσης περιβάλλοντος Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shχρησιμοποιώντας viή τον αγαπημένο σας επεξεργαστή κειμένου:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Βρείτε τη γραμμή:
export JAVA_HOME=$
Αντικαταστήστε το με:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Αυτή η ρύθμιση θα κάνει το Hadoop να χρησιμοποιεί πάντα την προεπιλεγμένη τοποθεσία εγκατάστασης της Java.
Αποθήκευση και έξοδος:
:wq!
Μπορείτε να προσθέσετε τη διαδρομή του προγράμματος Hadoop στη PATHμεταβλητή περιβάλλοντος για τη διευκόλυνσή σας:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Βήμα 4: Εκτελέστε και δοκιμάστε το Hadoop
Απλώς εκτελέστε την εντολή hadoopκαι θα σας ζητηθεί να χρησιμοποιήσετε την εντολή hadoop και τις διάφορες παραμέτρους της.
Εδώ, μπορείτε να χρησιμοποιήσετε ένα ενσωματωμένο παράδειγμα για να δοκιμάσετε την εγκατάσταση του Hadoop.
Προετοιμάστε την πηγή δεδομένων:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Χρησιμοποιήστε το Hadoop μαζί με το grep για να εξάγετε το αποτέλεσμα:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Η έξοδος θα πρέπει να είναι:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Τέλος, μπορείτε να δείτε το περιεχόμενο των αρχείων εξόδου:
cat ~/output/*
Το αποτέλεσμα θα πρέπει να είναι:
6 principal
1 principal.
Τώρα είστε έτοιμοι να εξερευνήσετε το Hadoop.