Jak nainstalovat Hadoop v samostatném režimu na CentOS 7

Předpoklady

Krok 1: Aktualizujte systém

Krok 2: Nainstalujte Javu

Krok 3: Nainstalujte Hadoop

Krok 4: Spusťte a otestujte Hadoop

Apache Hadoop je open source nástroj pro zpracování velkých dat, široce používaný v IT průmyslu.

V závislosti na velikosti, typu a měřítku vašich dat můžete nasadit Hadoop v samostatném nebo clusterovém režimu.

V tomto tutoriálu zaměřeném na začátečníky nainstalujeme Hadoop v samostatném režimu na instanci serveru CentOS 7.

Předpoklady

Nově vytvořená instance serveru Vultr CentOS 7 x64.
Uživatel sudo .

Krok 1: Aktualizujte systém

Přihlaste se jako uživatel sudo a poté aktualizujte systém CentOS 7 na nejnovější stabilní stav:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Jakmile bude server online, přihlaste se zpět.

Krok 2: Nainstalujte Javu

Hadoop je založen na Javě a OpenJDK 8 je doporučená verze pro nejnovější stabilní verzi.

Nainstalujte OpenJDK 8 JRE pomocí YUM:

sudo yum install -y java-1.8.0-openjdk

Ověřte instalaci OpenJDK 8 JRE:

java -version

Výstup by měl vypadat takto:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Krok 3: Nainstalujte Hadoop

Adresu URL ke stažení nejnovější verze Hadoop můžete vždy najít na oficiální stránce vydání Apache Hadoop . V době psaní tohoto článku je nejnovější stabilní verze Hadoop 2.7.3.

Stáhněte si binární archiv Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Stáhněte si odpovídající soubor kontrolního součtu:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Nainstalujte nástroj kontrolního součtu:

sudo yum install perl-Digest-SHA

Vypočítejte hodnotu SHA256 archivu Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Zobrazte obsah souboru hadoop-2.7.3.tar.gz.mdsa ujistěte se, že dvě hodnoty SHA256 jsou totožné:

cat hadoop-2.7.3.tar.gz.mds

Rozbalte archiv na určené místo:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Než budete moci správně spustit Hadoop, musíte pro něj určit domovské umístění Java.

Otevřete konfigurační soubor prostředí Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shpomocí vivašeho oblíbeného textového editoru:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Najděte řádek:

export JAVA_HOME=$

Nahraďte jej:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Toto nastavení způsobí, že Hadoop bude vždy používat výchozí umístění instalace Java.

Uložit a ukončit:

:wq!

PATHPro vaše pohodlí můžete přidat cestu k programu Hadoop do proměnné prostředí:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Krok 4: Spusťte a otestujte Hadoop

Jednoduše spusťte příkaz hadoopa budete vyzváni k použití příkazu hadoop a jeho různých parametrů.

Zde můžete použít vestavěný příklad k otestování instalace Hadoop.

Připravte zdroj dat:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Použijte Hadoop spolu s grep k výstupu výsledku:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Výstup by měl být:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Nakonec si můžete prohlédnout obsah výstupních souborů:

cat ~/output/*

Výsledek by měl být:

6       principal
1       principal.

Nyní jste připraveni prozkoumat Hadoop.

Zanechat komentář

Komentář *

Jméno *

Webová stránka

The Rise of Machines: Real World Applications of AI

Umělá inteligence není v budoucnosti, je zde přímo v současnosti V tomto blogu si přečtěte, jak aplikace umělé inteligence ovlivnily různé sektory.

Útoky DDOS: Stručný přehled

Jste také obětí DDOS útoků a nemáte jasno v metodách prevence? Chcete-li vyřešit své dotazy, přečtěte si tento článek.

Přemýšleli jste někdy, jak hackeři vydělávají peníze?

Možná jste slyšeli, že hackeři vydělávají spoustu peněz, ale napadlo vás někdy, jak takové peníze vydělávají? Pojďme diskutovat.

Revoluční vynálezy od Googlu, které vám usnadní život.

Chcete vidět revoluční vynálezy Google a jak tyto vynálezy změnily život každého dnešního člověka? Pak si přečtěte na blogu a podívejte se na vynálezy od Googlu.

Friday Essential: Co se stalo s auty řízenými umělou inteligencí?

Koncept aut s vlastním pohonem, která vyrazí na silnice s pomocí umělé inteligence, je snem, který už nějakou dobu máme. Ale přes několik slibů nejsou nikde vidět. Přečtěte si tento blog a dozvíte se více…

Technologická singularita: vzdálená budoucnost lidské civilizace?

Jak se věda vyvíjí rychlým tempem a přebírá mnoho našeho úsilí, stoupá také riziko, že se vystavíme nevysvětlitelné singularitě. Přečtěte si, co pro nás může znamenat singularita.

Funkcionality vrstev referenční architektury velkých dat

Přečtěte si blog, abyste co nejjednodušším způsobem poznali různé vrstvy v architektuře velkých dat a jejich funkce.

Evoluce ukládání dat – Infografika

Způsoby ukládání dat se mohou vyvíjet od narození dat. Tento blog se zabývá vývojem ukládání dat na základě infografiky.

6 úžasných výhod toho, že máme v životě zařízení pro chytrou domácnost

V tomto digitálním světě se chytrá domácí zařízení stala klíčovou součástí života. Zde je několik úžasných výhod chytrých domácích zařízení o tom, jak náš život stojí za to žít a zjednodušit jej.

Aktualizace doplňku macOS Catalina 10.15.4 způsobuje více problémů než řešení

Apple nedávno vydal doplňkovou aktualizaci macOS Catalina 10.15.4, která opravuje problémy, ale zdá se, že aktualizace způsobuje další problémy, které vedou k zablokování počítačů mac. Přečtěte si tento článek a dozvíte se více