Sådan installeres Hadoop i Stand-Alone Mode på CentOS 7

Apache Hadoop er et open source Big Data-behandlingsværktøj, der er meget udbredt i it-branchen.

Afhængigt af størrelsen, typen og skalaen af ​​dine data kan du implementere Hadoop i stand-alone eller klyngetilstand.

I denne begynder-fokuserede tutorial vil vi installere Hadoop i stand-alone-tilstand på en CentOS 7-serverinstans.

Forudsætninger

  • En nyoprettet Vultr CentOS 7 x64-serverinstans.
  • En sudo-bruger .

Trin 1: Opdater systemet

Log ind som sudo-bruger, og opdater derefter CentOS 7-systemet til den seneste stabile status:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Når serveren er online, skal du logge ind igen.

Trin 2: Installer Java

Hadoop er Java-baseret og OpenJDK 8 er den anbefalede version til den seneste stabile version.

Installer OpenJDK 8 JRE ved hjælp af YUM:

sudo yum install -y java-1.8.0-openjdk

Bekræft installationen af ​​OpenJDK 8 JRE:

java -version

Outputtet skal ligne:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Trin 3: Installer Hadoop

Du kan altid finde download-URL'en til den seneste version af Hadoop fra den officielle Apache Hadoop-udgivelsesside . På tidspunktet for skrivning af denne artikel er den seneste stabile version af Hadoop 2.7.3.

Download det binære arkiv af Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Download den matchende kontrolsum-fil:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Installer kontrolsumværktøjet:

sudo yum install perl-Digest-SHA

Beregn SHA256-værdien af ​​Hadoop-arkivet:

shasum -a 256 hadoop-2.7.3.tar.gz

Vis indholdet af filen hadoop-2.7.3.tar.gz.mds, og sørg for, at de to SHA256-værdier er identiske:

cat hadoop-2.7.3.tar.gz.mds

Pak arkivet ud til et udpeget sted:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Før du kan køre Hadoop korrekt, skal du angive Java-hjemmeplaceringen for det.

Åbn Hadoop-miljøkonfigurationsfilen /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shved hjælp af vieller din foretrukne teksteditor:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Find linjen:

export JAVA_HOME=$

Erstat den med:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Denne indstilling får Hadoop til altid at bruge Javas standardinstallationsplacering.

Gem og luk:

:wq!

Du kan tilføje stien til Hadoop-programmet til PATHmiljøvariablen for din bekvemmelighed:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Trin 4: Kør og test Hadoop

Udfør blot kommandoen hadoop, og du vil blive bedt om brugen af ​​hadoop-kommandoen og dens forskellige parametre.

Her kan du bruge et indbygget eksempel til at teste din Hadoop installation.

Forbered datakilden:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Brug Hadoop sammen med grep til at udlæse resultatet:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Outputtet skal være:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Endelig kan du se indholdet af outputfilerne:

cat ~/output/*

Resultatet skulle være:

6       principal
1       principal.

Du er nu klar til at udforske Hadoop.

Efterlad en kommentar

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Kunstig intelligens er ikke i fremtiden, det er her lige i nuet I denne blog Læs, hvordan kunstig intelligens-applikationer har påvirket forskellige sektorer.

DDOS-angreb: et kort overblik

DDOS-angreb: et kort overblik

Er du også et offer for DDOS-angreb og forvirret over forebyggelsesmetoderne? Læs denne artikel for at løse dine spørgsmål.

Har du nogensinde spekuleret på, hvordan tjener hackere penge?

Har du nogensinde spekuleret på, hvordan tjener hackere penge?

Du har måske hørt, at hackere tjener mange penge, men har du nogensinde spekuleret på, hvordan tjener de den slags penge? lad os diskutere.

Revolutionære opfindelser fra Google, der vil gøre dit liv lettere.

Revolutionære opfindelser fra Google, der vil gøre dit liv lettere.

Vil du se revolutionerende opfindelser fra Google, og hvordan disse opfindelser ændrede livet for ethvert menneske i dag? Læs derefter til bloggen for at se opfindelser fra Google.

Fredag ​​Essential: Hvad skete der med AI-drevne biler?

Fredag ​​Essential: Hvad skete der med AI-drevne biler?

Konceptet med selvkørende biler til at køre på vejene ved hjælp af kunstig intelligens er en drøm, vi har haft i et stykke tid nu. Men på trods af flere løfter er de ingen steder at se. Læs denne blog for at lære mere...

Teknologisk singularitet: En fjern fremtid for menneskelig civilisation?

Teknologisk singularitet: En fjern fremtid for menneskelig civilisation?

Efterhånden som videnskaben udvikler sig i et hurtigt tempo og overtager en stor del af vores indsats, stiger risikoen for at udsætte os selv for en uforklarlig Singularitet. Læs, hvad singularitet kunne betyde for os.

Funktioner af Big Data Reference Architecture Layers

Funktioner af Big Data Reference Architecture Layers

Læs bloggen for at kende forskellige lag i Big Data-arkitekturen og deres funktionaliteter på den enkleste måde.

Udvikling af datalagring – Infografik

Udvikling af datalagring – Infografik

Opbevaringsmetoderne for dataene har været under udvikling, kan være siden fødslen af ​​dataene. Denne blog dækker udviklingen af ​​datalagring på basis af en infografik.

6 fantastiske fordele ved at have smarte hjemmeenheder i vores liv

6 fantastiske fordele ved at have smarte hjemmeenheder i vores liv

I denne digitalt drevne verden er smarte hjemmeenheder blevet en afgørende del af livet. Her er et par fantastiske fordele ved smarte hjemmeenheder om, hvordan de gør vores liv værd at leve og enklere.

macOS Catalina 10.15.4-tillægsopdatering forårsager flere problemer end at løse

macOS Catalina 10.15.4-tillægsopdatering forårsager flere problemer end at løse

For nylig udgav Apple macOS Catalina 10.15.4 en supplerende opdatering for at løse problemer, men det ser ud til, at opdateringen forårsager flere problemer, hvilket fører til mursten af ​​mac-maskiner. Læs denne artikel for at lære mere