Kako instalirati Hadoop u samostalnom načinu rada na CentOS 7

Apache Hadoop je alat za obradu velikih podataka otvorenog koda koji se široko koristi u IT industriji.

Ovisno o veličini, vrsti i mjerilu vaših podataka, Hadoop možete implementirati u samostalnom ili cluster načinu rada.

U ovom vodiču usmjerenom na početnike, Hadoop ćemo instalirati u samostalnom načinu rada na instanci poslužitelja CentOS 7.

Preduvjeti

Novostvorena instanca poslužitelja Vultr CentOS 7 x64.
Korisnik sudoa .

Korak 1: Ažurirajte sustav

Prijavite se kao sudo korisnik, a zatim ažurirajte sustav CentOS 7 na najnoviji stabilan status:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Nakon što je poslužitelj online, ponovno se prijavite.

Korak 2: Instalirajte Javu

Hadoop se temelji na Javi, a OpenJDK 8 je preporučena verzija za najnoviju stabilnu verziju.

Instalirajte OpenJDK 8 JRE koristeći YUM:

sudo yum install -y java-1.8.0-openjdk

Provjerite instalaciju OpenJDK 8 JRE:

java -version

Izlaz bi trebao izgledati:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Korak 3: Instalirajte Hadoop

URL za preuzimanje najnovije verzije Hadoopa uvijek možete pronaći na službenoj stranici izdanja Apache Hadoop-a . U vrijeme pisanja ovog članka, najnovija stabilna verzija Hadoopa je 2.7.3.

Preuzmite binarnu arhivu Hadoopa 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Preuzmite odgovarajuću datoteku kontrolnog zbroja:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Instalirajte alat checksum:

sudo yum install perl-Digest-SHA

Izračunajte SHA256 vrijednost Hadoop arhive:

shasum -a 256 hadoop-2.7.3.tar.gz

Prikažite sadržaj datoteke hadoop-2.7.3.tar.gz.mdsi provjerite jesu li dvije SHA256 vrijednosti identične:

cat hadoop-2.7.3.tar.gz.mds

Raspakirajte arhivu na određeno mjesto:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Prije nego što možete ispravno pokrenuti Hadoop, morate odrediti početnu lokaciju Jave za njega.

Otvorite konfiguracijsku datoteku Hadoop okruženja /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shkoristeći viili svoj omiljeni uređivač teksta:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Pronađite liniju:

export JAVA_HOME=$

Zamijenite ga sa:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Ova će postavka učiniti da Hadoop uvijek koristi zadanu lokaciju za instalaciju Jave.

Spremi i zatvori:

:wq!

Možete dodati putanju Hadoop programa u PATHvarijablu okruženja radi svoje udobnosti:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Korak 4: Pokrenite i testirajte Hadoop

Jednostavno izvršite naredbu hadoopi od vas će biti zatraženo korištenje naredbe hadoop i njezinih različitih parametara.

Ovdje možete koristiti ugrađeni primjer za testiranje svoje Hadoop instalacije.

Pripremite izvor podataka:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Koristite Hadoop zajedno s grep za ispis rezultata:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Izlaz bi trebao biti:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Konačno, možete vidjeti sadržaj izlaznih datoteka:

cat ~/output/*

Rezultat bi trebao biti:

6       principal
1       principal.

Sada ste spremni istražiti Hadoop.

Ostavite komentar

Komentar *

Ime *

Web stranica

Uspon strojeva: primjene AI u stvarnom svijetu

Umjetna inteligencija nije u budućnosti, ovdje je upravo u sadašnjosti. U ovom blogu Pročitajte kako su aplikacije umjetne inteligencije utjecale na različite sektore.

DDOS napadi: kratak pregled

Jeste li i vi žrtva DDOS napada i zbunjeni ste metodama prevencije? Pročitajte ovaj članak kako biste riješili svoje upite.

Jeste li se ikada zapitali kako hakeri zarađuju novac?

Možda ste čuli da hakeri zarađuju mnogo novca, ali jeste li se ikada zapitali kako zarađuju toliki novac? raspravimo.

Revolucionarni Googleovi izumi koji će vam olakšati život.

Želite li vidjeti revolucionarne izume Googlea i kako su ti izumi promijenili život svakog čovjeka danas? Zatim čitajte na blogu kako biste vidjeli Googleove izume.

Friday Essential: Što se dogodilo s automobilima s umjetnom inteligencijom?

Koncept samovozećih automobila koji će krenuti na ceste uz pomoć umjetne inteligencije san je koji već neko vrijeme imamo. No, unatoč nekoliko obećanja, nigdje ih nema. Pročitajte ovaj blog kako biste saznali više…

Tehnološka singularnost: daleka budućnost ljudske civilizacije?

Kako se znanost razvija velikom brzinom, preuzimajući mnoge naše napore, raste i rizik da se podvrgnemo neobjašnjivoj Singularnosti. Pročitajte što bi za nas mogla značiti singularnost.

Funkcionalnosti slojeva referentne arhitekture velikih podataka

Pročitajte blog kako biste na najjednostavniji način upoznali različite slojeve u arhitekturi velikih podataka i njihove funkcionalnosti.

Evolucija pohrane podataka – Infografika

Metode pohrane podataka su se razvijale možda od rođenja podataka. Ovaj blog pokriva evoluciju pohrane podataka na temelju infografike.

6 nevjerojatnih prednosti posjedovanja pametnih kućnih uređaja u našim životima

U ovom digitalnom svijetu, pametni kućni uređaji postali su ključni dio života. Evo nekoliko nevjerojatnih prednosti pametnih kućnih uređaja o tome kako naš život čine vrijednim življenja i jednostavnijim.

Ažuriranje dodataka macOS Catalina 10.15.4 uzrokuje više problema nego što ih rješava

Nedavno je Apple izdao macOS Catalina 10.15.4 dodatak ažuriranju kako bi riješio probleme, ali čini se da ažuriranje uzrokuje više problema koji dovode do zalijevanja mac strojeva. Pročitajte ovaj članak da biste saznali više