Ako nainštalovať Hadoop v samostatnom režime na CentOS 7

Predpoklady

Krok 1: Aktualizujte systém

Krok 2: Nainštalujte Java

Krok 3: Nainštalujte Hadoop

Krok 4: Spustite a otestujte Hadoop

Apache Hadoop je open source nástroj na spracovanie veľkých dát, široko používaný v IT priemysle.

V závislosti od veľkosti, typu a rozsahu vašich údajov môžete nasadiť Hadoop v samostatnom alebo klastrovom režime.

V tomto návode zameranom na začiatočníkov nainštalujeme Hadoop v samostatnom režime na inštanciu servera CentOS 7.

Predpoklady

Novovytvorená serverová inštancia Vultr CentOS 7 x64.
Sudo používateľ .

Krok 1: Aktualizujte systém

Prihláste sa ako používateľ sudo a potom aktualizujte systém CentOS 7 na najnovší stabilný stav:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Keď je server online, prihláste sa.

Krok 2: Nainštalujte Java

Hadoop je založený na jazyku Java a OpenJDK 8 je odporúčaná verzia pre najnovšiu stabilnú verziu.

Nainštalujte OpenJDK 8 JRE pomocou YUM:

sudo yum install -y java-1.8.0-openjdk

Overte inštaláciu OpenJDK 8 JRE:

java -version

Výstup by sa mal podobať:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Krok 3: Nainštalujte Hadoop

Adresu URL na stiahnutie najnovšej verzie Hadoopu môžete vždy nájsť na oficiálnej stránke vydania Apache Hadoop . V čase písania tohto článku je najnovšia stabilná verzia Hadoop 2.7.3.

Stiahnite si binárny archív Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Stiahnite si zodpovedajúci súbor kontrolného súčtu:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Nainštalujte nástroj kontrolného súčtu:

sudo yum install perl-Digest-SHA

Vypočítajte hodnotu SHA256 archívu Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Zobrazte obsah súboru hadoop-2.7.3.tar.gz.mdsa uistite sa, že dve hodnoty SHA256 sú identické:

cat hadoop-2.7.3.tar.gz.mds

Rozbaľte archív na určené miesto:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Než budete môcť správne spustiť Hadoop, musíte preň určiť domovské umiestnenie Java.

Otvorte konfiguračný súbor prostredia Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shpomocou vivášho obľúbeného textového editora:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Nájdite riadok:

export JAVA_HOME=$

Nahraďte ho:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Toto nastavenie spôsobí, že Hadoop bude vždy používať predvolené umiestnenie inštalácie Java.

Uložiť a ukončiť:

:wq!

Pre PATHvaše pohodlie môžete pridať cestu programu Hadoop do premennej prostredia:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Krok 4: Spustite a otestujte Hadoop

Jednoducho spustite príkaz hadoopa zobrazí sa výzva na použitie príkazu hadoop a jeho rôznych parametrov.

Tu môžete použiť vstavaný príklad na otestovanie inštalácie Hadoop.

Pripravte zdroj údajov:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Použite Hadoop spolu s grep na výstup výsledku:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Výstup by mal byť:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Nakoniec si môžete pozrieť obsah výstupných súborov:

cat ~/output/*

Výsledkom by malo byť:

6       principal
1       principal.

Teraz ste pripravení preskúmať Hadoop.

Zanechať komentár

Komentár *

Meno *

Webová stránka

The Rise of Machines: Real World Applications of AI

Umelá inteligencia nie je v budúcnosti, je tu priamo v súčasnosti V tomto blogu si prečítajte, ako aplikácie umelej inteligencie ovplyvnili rôzne sektory.

Útoky DDOS: Stručný prehľad

Ste aj vy obeťou DDOS útokov a máte zmätok ohľadom metód prevencie? Ak chcete vyriešiť svoje otázky, prečítajte si tento článok.

Zaujímalo vás niekedy, ako hackeri zarábajú peniaze?

Možno ste už počuli, že hackeri zarábajú veľa peňazí, ale premýšľali ste niekedy nad tým, ako môžu zarábať také peniaze? poďme diskutovať.

Revolučné vynálezy od spoločnosti Google, ktoré vám uľahčia život.

Chcete vidieť revolučné vynálezy od Google a ako tieto vynálezy zmenili život každého dnešného človeka? Potom si prečítajte na blogu a pozrite si vynálezy spoločnosti Google.

Piatok Essential: Čo sa stalo s autami poháňanými AI?

Koncept samoriadených áut vyraziť na cesty s pomocou umelej inteligencie je snom, ktorý máme už nejaký čas. Ale napriek niekoľkým prísľubom ich nikde nevidno. Prečítajte si tento blog a dozviete sa viac…

Technologická singularita: vzdialená budúcnosť ľudskej civilizácie?

Ako sa veda vyvíja rýchlym tempom a preberá veľa nášho úsilia, zvyšuje sa aj riziko, že sa vystavíme nevysvetliteľnej singularite. Prečítajte si, čo pre nás môže znamenať singularita.

Funkcionality vrstiev referenčnej architektúry veľkých dát

Prečítajte si blog, aby ste čo najjednoduchším spôsobom spoznali rôzne vrstvy architektúry veľkých dát a ich funkcie.

Vývoj ukladania dát – Infografika

Spôsoby ukladania údajov sa môžu vyvíjať už od zrodu údajov. Tento blog sa zaoberá vývojom ukladania údajov na základe infografiky.

6 úžasných výhod toho, že máme v živote inteligentné domáce zariadenia

V tomto digitálnom svete sa inteligentné domáce zariadenia stali kľúčovou súčasťou života. Tu je niekoľko úžasných výhod inteligentných domácich zariadení o tom, ako robia náš život, ktorý stojí za to žiť, a ktorý zjednodušujú.

Aktualizácia doplnku macOS Catalina 10.15.4 spôsobuje viac problémov, ako ich rieši

Spoločnosť Apple nedávno vydala doplnkovú aktualizáciu macOS Catalina 10.15.4 na opravu problémov, ale zdá sa, že táto aktualizácia spôsobuje ďalšie problémy, ktoré vedú k blokovaniu počítačov Mac. Prečítajte si tento článok a dozviete sa viac