Kako namestiti Hadoop v samostojnem načinu na CentOS 7

Predpogoji

1. korak: Posodobite sistem

2. korak: Namestite Javo

3. korak: Namestite Hadoop

4. korak: Zaženite in preizkusite Hadoop

Apache Hadoop je odprtokodno orodje za obdelavo velikih podatkov, ki se pogosto uporablja v IT industriji.

Glede na velikost, vrsto in obseg vaših podatkov lahko Hadoop uvedete v samostojnem načinu ali načinu v gruči.

V tej vadnici, osredotočeni na začetnike, bomo Hadoop namestili v samostojnem načinu na primerek strežnika CentOS 7.

Predpogoji

Na novo ustvarjen primerek strežnika Vultr CentOS 7 x64.
Uporabnik sudo .

1. korak: Posodobite sistem

Prijavite se kot uporabnik sudo in nato posodobite sistem CentOS 7 na najnovejše stabilno stanje:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Ko je strežnik povezan, se znova prijavite.

2. korak: Namestite Javo

Hadoop temelji na Javi in OpenJDK 8 je priporočena različica za najnovejšo stabilno različico.

Namestite OpenJDK 8 JRE z uporabo YUM:

sudo yum install -y java-1.8.0-openjdk

Preverite namestitev OpenJDK 8 JRE:

java -version

Izhod bi moral biti podoben:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

3. korak: Namestite Hadoop

URL za prenos najnovejše različice Hadoop lahko vedno najdete na uradni strani za izdajo Apache Hadoop . V času pisanja tega članka je bila zadnja stabilna različica Hadoopa 2.7.3.

Prenesite binarni arhiv Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Prenesite ujemajočo se datoteko kontrolne vsote:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Namestite orodje za kontrolno vsoto:

sudo yum install perl-Digest-SHA

Izračunajte vrednost SHA256 arhiva Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Prikažite vsebino datoteke hadoop-2.7.3.tar.gz.mdsin se prepričajte, da sta vrednosti SHA256 enaki:

cat hadoop-2.7.3.tar.gz.mds

Razpakirajte arhiv na določeno mesto:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Preden lahko pravilno zaženete Hadoop, morate zanj določiti domačo lokacijo Jave.

Odprite konfiguracijsko datoteko okolja Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shz viali z vašim najljubšim urejevalnikom besedil:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Poiščite vrstico:

export JAVA_HOME=$

Zamenjaj ga z:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Zaradi te nastavitve bo Hadoop vedno uporabljal privzeto namestitveno lokacijo Jave.

Shrani in zapusti:

:wq!

Za PATHvaše udobje lahko spremenljivki okolja dodate pot programa Hadoop :

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

4. korak: Zaženite in preizkusite Hadoop

Preprosto izvedite ukaz hadoopin pozvani boste k uporabi ukaza hadoop in njegovih različnih parametrih.

Tukaj lahko uporabite vgrajen primer za testiranje namestitve Hadoop.

Pripravite vir podatkov:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Uporabite Hadoop skupaj z grep za izpis rezultata:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Izhod naj bo:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Končno si lahko ogledate vsebino izhodnih datotek:

cat ~/output/*

Rezultat bi moral biti:

6       principal
1       principal.

Zdaj ste pripravljeni na raziskovanje Hadoopa.

Pusti komentar

Komentar *

Ime *

Spletna stran

Vzpon strojev: aplikacije AI v resničnem svetu

Umetna inteligenca ni v prihodnosti, tukaj je prav v sedanjosti. V tem blogu preberite, kako so aplikacije umetne inteligence vplivale na različne sektorje.

DDOS napadi: kratek pregled

Ste tudi vi žrtev DDOS napadov in ste zmedeni glede načinov preprečevanja? Preberite ta članek, če želite rešiti svoja vprašanja.

Ste se kdaj vprašali, kako hekerji zaslužijo denar?

Morda ste že slišali, da hekerji zaslužijo veliko denarja, a ste se kdaj vprašali, kako zaslužijo takšen denar? razpravljajmo.

Revolucionarni Googlovi izumi, ki vam bodo olajšali življenje.

Ali želite videti revolucionarne izume Googla in kako so ti izumi danes spremenili življenje vsakega človeka? Nato preberite v blogu in si oglejte Googlove izume.

Friday Essential: Kaj se je zgodilo z avtomobili, ki jih poganja umetna inteligenca?

Koncept samovozečih avtomobilov, ki zapeljejo na ceste s pomočjo umetne inteligence, so sanje, ki jih imamo že nekaj časa. A kljub številnim obljubam jih ni nikjer. Preberite ta blog, če želite izvedeti več…

Tehnološka singularnost: oddaljena prihodnost človeške civilizacije?

Ker se znanost hitro razvija in prevzame veliko naših prizadevanj, se povečuje tudi tveganje, da se podvržemo nerazložljivi singularnosti. Preberite, kaj bi za nas lahko pomenila singularnost.

Funkcionalnosti slojev referenčne arhitekture velikih podatkov

Preberite blog, če želite na najpreprostejši način spoznati različne plasti v arhitekturi velikih podatkov in njihove funkcionalnosti.

Razvoj shranjevanja podatkov – Infografika

Metode shranjevanja podatkov so se lahko razvijale od rojstva podatkov. Ta blog pokriva razvoj shranjevanja podatkov na podlagi infografike.

6 neverjetnih prednosti pametnih naprav za dom v našem življenju

V tem digitalno vodenem svetu so pametne naprave za dom postale ključni del življenja. Tukaj je nekaj neverjetnih prednosti pametnih naprav za dom o tem, kako naredijo naše življenje vredno življenja in poenostavijo.

Posodobitev dodatka macOS Catalina 10.15.4 povzroča več težav kot jih rešuje

Pred kratkim je Apple izdal macOS Catalina 10.15.4 dopolnilno posodobitev za odpravo težav, vendar se zdi, da posodobitev povzroča več težav, ki vodijo do opečenja računalnikov Mac. Preberite ta članek, če želite izvedeti več