Как да инсталирате Hadoop в самостоятелен режим на CentOS 7

Apache Hadoop е инструмент за обработка на големи данни с отворен код, широко използван в ИТ индустрията.

В зависимост от размера, типа и мащаба на вашите данни, можете да разгърнете Hadoop в самостоятелен или клъстерен режим.

В този урок, фокусиран за начинаещи, ще инсталираме Hadoop в самостоятелен режим на сървърен екземпляр на CentOS 7.

Предпоставки

Стъпка 1: Актуализирайте системата

Влезте като потребител на sudo и след това актуализирайте системата CentOS 7 до най-новото стабилно състояние:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

След като сървърът е онлайн, влезте отново.

Стъпка 2: Инсталирайте Java

Hadoop е базиран на Java и OpenJDK 8 е препоръчителната версия за най-новата стабилна версия.

Инсталирайте OpenJDK 8 JRE с помощта на YUM:

sudo yum install -y java-1.8.0-openjdk

Проверете инсталирането на OpenJDK 8 JRE:

java -version

Резултатът трябва да прилича на:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Стъпка 3: Инсталирайте Hadoop

Винаги можете да намерите URL адреса за изтегляне на най-новата версия на Hadoop от официалната страница за издаване на Apache Hadoop . Към момента на писане на тази статия последната стабилна версия на Hadoop е 2.7.3.

Изтеглете двоичния архив на Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Изтеглете съответния файл за контролна сума:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Инсталирайте инструмента за контролна сума:

sudo yum install perl-Digest-SHA

Изчислете стойността на SHA256 на архива на Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Покажете съдържанието на файла hadoop-2.7.3.tar.gz.mdsи се уверете, че двете стойности на SHA256 са идентични:

cat hadoop-2.7.3.tar.gz.mds

Разархивирайте архива на определено място:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Преди да можете да стартирате правилно Hadoop, трябва да посочите началното местоположение на Java за него.

Отворете конфигурационния файл на средата на Hadoop, /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shкато използвате viили вашия любим текстов редактор:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Намерете реда:

export JAVA_HOME=$

Заменете го с:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Тази настройка ще накара Hadoop винаги да използва местоположението по подразбиране за инсталиране на Java.

Запазете и излезте:

:wq!

Можете да добавите пътя на програмата Hadoop към PATHпроменливата на средата за ваше удобство:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Стъпка 4: Стартирайте и тествайте Hadoop

Просто изпълнете командата hadoopи ще бъдете подканени с използването на командата hadoop и нейните различни параметри.

Тук можете да използвате вграден пример, за да тествате вашата инсталация на Hadoop.

Подгответе източника на данни:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Използвайте Hadoop заедно с grep, за да изведете резултата:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Изходът трябва да бъде:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

И накрая, можете да видите съдържанието на изходните файлове:

cat ~/output/*

Резултатът трябва да бъде:

6       principal
1       principal.

Вече сте готови да изследвате Hadoop.

Оставете коментар

Възходът на машините: Реални приложения на AI

Възходът на машините: Реални приложения на AI

Изкуственият интелект не е в бъдещето, тук е точно в настоящето. В този блог Прочетете как приложенията за изкуствен интелект са повлияли на различни сектори.

DDOS атаки: кратък преглед

DDOS атаки: кратък преглед

Вие също сте жертва на DDOS атаки и сте объркани относно методите за превенция? Прочетете тази статия, за да разрешите вашите запитвания.

Чудили ли сте се как хакерите печелят пари?

Чудили ли сте се как хакерите печелят пари?

Може би сте чували, че хакерите печелят много пари, но чудили ли сте се някога как печелят такива пари? нека обсъдим.

Революционни изобретения на Google, които ще улеснят живота ви.

Революционни изобретения на Google, които ще улеснят живота ви.

Искате ли да видите революционни изобретения на Google и как тези изобретения промениха живота на всяко човешко същество днес? След това прочетете в блога, за да видите изобретенията на Google.

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Концепцията за самоуправляващи се автомобили да тръгват по пътищата с помощта на изкуствен интелект е мечта, която имаме от известно време. Но въпреки няколкото обещания, те не се виждат никъде. Прочетете този блог, за да научите повече…

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Тъй като науката се развива с бързи темпове, поемайки много от нашите усилия, рискът да се подложим на необяснима сингулярност също нараства. Прочетете какво може да означава сингулярността за нас.

Функционалности на референтните архитектурни слоеве за големи данни

Функционалности на референтните архитектурни слоеве за големи данни

Прочетете блога, за да разберете различни слоеве в архитектурата на големи данни и техните функционалности по най-простия начин.

Еволюция на съхранението на данни – инфографика

Еволюция на съхранението на данни – инфографика

Методите за съхранение на данните може да се развиват от раждането на данните. Този блог обхваща развитието на съхранението на данни на базата на инфографика.

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

В този дигитално задвижван свят устройствата за интелигентен дом се превърнаха в решаваща част от живота. Ето няколко невероятни предимства на интелигентните домашни устройства за това как те правят живота ни струващ и по-опростен.

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Наскоро Apple пусна macOS Catalina 10.15.4 допълнителна актуализация за отстраняване на проблеми, но изглежда, че актуализацията причинява повече проблеми, водещи до блокиране на mac машини. Прочетете тази статия, за да научите повече