Hvordan installere Hadoop i frittstående modus på CentOS 7

Apache Hadoop er et åpen kildekode Big Data-behandlingsverktøy, mye brukt i IT-bransjen.

Avhengig av størrelsen, typen og skalaen til dataene dine, kan du distribuere Hadoop i frittstående eller klyngemodus.

I denne nybegynnerfokuserte opplæringen vil vi installere Hadoop i frittstående modus på en CentOS 7-serverforekomst.

Forutsetninger

  • En nyopprettet Vultr CentOS 7 x64-serverforekomst.
  • En sudo-bruker .

Trinn 1: Oppdater systemet

Logg på som sudo-bruker, og oppdater deretter CentOS 7-systemet til den siste stabile statusen:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Når serveren er online, logger du på igjen.

Trinn 2: Installer Java

Hadoop er Java-basert og OpenJDK 8 er den anbefalte versjonen for den siste stabile versjonen.

Installer OpenJDK 8 JRE med YUM:

sudo yum install -y java-1.8.0-openjdk

Bekreft installasjonen av OpenJDK 8 JRE:

java -version

Utgangen skal ligne:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Trinn 3: Installer Hadoop

Du kan alltid finne nedlastings-URLen til den nyeste versjonen av Hadoop fra den offisielle Apache Hadoop-utgivelsessiden . På tidspunktet for skriving av denne artikkelen er den siste stabile versjonen av Hadoop 2.7.3.

Last ned det binære arkivet til Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Last ned den samsvarende sjekksumfilen:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Installer kontrollsumverktøyet:

sudo yum install perl-Digest-SHA

Beregn SHA256-verdien til Hadoop-arkivet:

shasum -a 256 hadoop-2.7.3.tar.gz

Vis innholdet i filen hadoop-2.7.3.tar.gz.mds, og sørg for at de to SHA256-verdiene er identiske:

cat hadoop-2.7.3.tar.gz.mds

Pakk ut arkivet til et angitt sted:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Før du kan kjøre Hadoop riktig, må du spesifisere Java-hjemmeplasseringen for den.

Åpne Hadoop-miljøkonfigurasjonsfilen /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shved å bruke vieller din favoritt tekstredigerer:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Finn linjen:

export JAVA_HOME=$

Erstatt den med:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Denne innstillingen vil gjøre at Hadoop alltid bruker standard installasjonssted for Java.

Lagre og avslutt:

:wq!

Du kan legge til banen til Hadoop-programmet til PATHmiljøvariabelen for enkelhets skyld:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Trinn 4: Kjør og test Hadoop

Bare utfør kommandoen hadoop, og du vil bli spurt om bruken av hadoop-kommandoen og dens forskjellige parametere.

Her kan du bruke et innebygd eksempel for å teste Hadoop-installasjonen.

Forbered datakilden:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Bruk Hadoop sammen med grep for å sende ut resultatet:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Utgangen skal være:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Til slutt kan du se innholdet i utdatafilene:

cat ~/output/*

Resultatet bør være:

6       principal
1       principal.

Du er nå klar til å utforske Hadoop.

Legg igjen en kommentar

The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Kunstig intelligens er ikke i fremtiden, det er her akkurat i nåtiden I denne bloggen Les hvordan kunstig intelligens-applikasjoner har påvirket ulike sektorer.

DDOS-angrep: en kort oversikt

DDOS-angrep: en kort oversikt

Er du også et offer for DDOS-angrep og forvirret over forebyggingsmetodene? Les denne artikkelen for å løse spørsmålene dine.

Har du noen gang lurt på hvordan hackere tjener penger?

Har du noen gang lurt på hvordan hackere tjener penger?

Du har kanskje hørt at hackere tjener mye penger, men har du noen gang lurt på hvordan tjener de den slags penger? la oss diskutere.

Revolusjonerende oppfinnelser fra Google som vil gjøre livet ditt enkelt.

Revolusjonerende oppfinnelser fra Google som vil gjøre livet ditt enkelt.

Vil du se revolusjonerende oppfinnelser fra Google og hvordan disse oppfinnelsene forandret livet til alle mennesker i dag? Les deretter til bloggen for å se oppfinnelser fra Google.

Fredag ​​Essential: Hva skjedde med AI-drevne biler?

Fredag ​​Essential: Hva skjedde med AI-drevne biler?

Konseptet med selvkjørende biler som skal ut på veiene ved hjelp av kunstig intelligens er en drøm vi har hatt en stund nå. Men til tross for flere løfter, er de ingen steder å se. Les denne bloggen for å lære mer...

Teknologisk singularitet: en fjern fremtid for menneskelig sivilisasjon?

Teknologisk singularitet: en fjern fremtid for menneskelig sivilisasjon?

Ettersom vitenskapen utvikler seg raskt og tar over mye av innsatsen vår, øker også risikoen for å utsette oss for en uforklarlig singularitet. Les hva singularitet kan bety for oss.

Funksjonaliteter til Big Data Reference Architecture Layers

Funksjonaliteter til Big Data Reference Architecture Layers

Les bloggen for å kjenne ulike lag i Big Data Architecture og deres funksjoner på den enkleste måten.

Evolusjon av datalagring – infografikk

Evolusjon av datalagring – infografikk

Lagringsmetodene for dataene har vært i utvikling kan være siden fødselen av dataene. Denne bloggen dekker utviklingen av datalagring på grunnlag av en infografikk.

6 fantastiske fordeler ved å ha smarte hjemmeenheter i livene våre

6 fantastiske fordeler ved å ha smarte hjemmeenheter i livene våre

I denne digitaldrevne verden har smarthusenheter blitt en avgjørende del av livet. Her er noen fantastiske fordeler med smarthusenheter om hvordan de gjør livet vårt verdt å leve og enklere.

macOS Catalina 10.15.4 tilleggsoppdatering forårsaker flere problemer enn å løse

macOS Catalina 10.15.4 tilleggsoppdatering forårsaker flere problemer enn å løse

Nylig lanserte Apple macOS Catalina 10.15.4 en tilleggsoppdatering for å fikse problemer, men det ser ut til at oppdateringen forårsaker flere problemer som fører til muring av mac-maskiner. Les denne artikkelen for å lære mer