Com instal·lar Hadoop en mode autònom a CentOS 7

Requisits previs

Pas 1: actualitzeu el sistema

Pas 2: instal·leu Java

Pas 3: instal·leu Hadoop

Pas 4: executeu i proveu Hadoop

Apache Hadoop és una eina de processament de Big Data de codi obert, molt utilitzada a la indústria de les TI.

Depenent de la mida, el tipus i l'escala de les vostres dades, podeu implementar Hadoop en mode autònom o en clúster.

En aquest tutorial centrat en principiants, instal·larem Hadoop en mode autònom en una instància de servidor CentOS 7.

Requisits previs

Una instància de servidor Vultr CentOS 7 x64 de nova creació.
Un usuari de sudo .

Pas 1: actualitzeu el sistema

Inicieu sessió com a usuari sudo i, a continuació, actualitzeu el sistema CentOS 7 a l'últim estat estable:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Un cop el servidor estigui en línia, torneu a iniciar sessió.

Pas 2: instal·leu Java

Hadoop està basat en Java i OpenJDK 8 és la versió recomanada per a la darrera versió estable.

Instal·leu OpenJDK 8 JRE mitjançant YUM:

sudo yum install -y java-1.8.0-openjdk

Verifiqueu la instal·lació d'OpenJDK 8 JRE:

java -version

La sortida hauria de semblar-se a:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Pas 3: instal·leu Hadoop

Sempre podeu trobar l'URL de descàrrega de l'última versió d'Hadoop a la pàgina oficial de llançament d'Apache Hadoop . En el moment d'escriure aquest article, l'última versió estable de Hadoop és la 2.7.3.

Descarrega l'arxiu binari de Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Baixeu el fitxer de suma de comprovació coincident:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Instal·leu l'eina de suma de comprovació:

sudo yum install perl-Digest-SHA

Calcula el valor SHA256 de l'arxiu Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Mostra el contingut del fitxer hadoop-2.7.3.tar.gz.mdsi assegureu-vos que els dos valors SHA256 són idèntics:

cat hadoop-2.7.3.tar.gz.mds

Descomprimiu l'arxiu a una ubicació designada:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Abans de poder executar Hadoop correctament, heu d'especificar la ubicació inicial de Java.

Obriu el fitxer de configuració de l'entorn Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shamb el vivostre editor de text preferit:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Troba la línia:

export JAVA_HOME=$

Substituïu-lo per:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Aquesta configuració farà que Hadoop utilitzi sempre la ubicació d'instal·lació predeterminada de Java.

Desa i surt:

:wq!

Podeu afegir la ruta del programa Hadoop a la PATHvariable d'entorn per a la vostra comoditat:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Pas 4: executeu i proveu Hadoop

Simplement executeu l'ordre hadoopi se us demanarà l'ús de l'ordre hadoop i els seus diferents paràmetres.

Aquí, podeu utilitzar un exemple integrat per provar la vostra instal·lació de Hadoop.

Prepareu la font de dades:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Utilitzeu Hadoop juntament amb grep per produir el resultat:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

La sortida hauria de ser:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Finalment, podeu veure el contingut dels fitxers de sortida:

cat ~/output/*

El resultat hauria de ser:

6       principal
1       principal.

Ara esteu preparat per explorar Hadoop.

Deixa un comentari

Comentari *

Nom *

Lloc web

The Rise of Machines: Real World Applications of AI

La Intel·ligència Artificial no està en el futur, és aquí mateix en el present. En aquest bloc Llegiu com les aplicacions d'Intel·ligència Artificial han afectat diversos sectors.

Atacs DDOS: una breu visió general

També ets víctima d'atacs DDOS i estàs confós sobre els mètodes de prevenció? Llegiu aquest article per resoldre les vostres consultes.

Us heu preguntat mai com guanyen diners els pirates informàtics?

Potser haureu sentit que els pirates informàtics guanyen molts diners, però us heu preguntat mai com guanyen aquest tipus de diners? anem a discutir.

Invents revolucionaris de Google que us facilitaran la vida.

Vols veure els invents revolucionaris de Google i com aquests invents van canviar la vida de tots els éssers humans actuals? A continuació, llegiu al bloc per veure els invents de Google.

Divendres essencial: què va passar amb els cotxes impulsats per IA?

El concepte de cotxes autònoms per sortir a les carreteres amb l'ajuda de la intel·ligència artificial és un somni que tenim des de fa temps. Però malgrat les diverses promeses, no es veuen enlloc. Llegeix aquest blog per saber-ne més...

Singularitat tecnològica: un futur llunyà de la civilització humana?

A mesura que la ciència evoluciona a un ritme ràpid, fent-se càrrec de molts dels nostres esforços, també augmenten els riscos de sotmetre'ns a una singularitat inexplicable. Llegeix, què pot significar per a nosaltres la singularitat.

Funcionalitats de les capes darquitectura de referència de Big Data

Llegeix el blog per conèixer de la manera més senzilla les diferents capes de l'Arquitectura Big Data i les seves funcionalitats.

Evolució de lemmagatzematge de dades – Infografia

Els mètodes d'emmagatzematge de les dades que han anat evolucionant poden ser des del naixement de les dades. Aquest bloc tracta l'evolució de l'emmagatzematge de dades a partir d'una infografia.

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

En aquest món digital, els dispositius domèstics intel·ligents s'han convertit en una part crucial de les vides. A continuació, es mostren alguns avantatges sorprenents dels dispositius domèstics intel·ligents sobre com fan que la nostra vida valgui la pena i sigui més senzilla.

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Recentment, Apple va llançar macOS Catalina 10.15.4, una actualització de suplements per solucionar problemes, però sembla que l'actualització està causant més problemes que provoquen el bloqueig de les màquines Mac. Llegiu aquest article per obtenir més informació