Як встановити Hadoop в автономному режимі на CentOS 7

Apache Hadoop — це інструмент обробки великих даних з відкритим кодом, який широко використовується в ІТ-індустрії.

Залежно від розміру, типу та масштабу ваших даних, ви можете розгорнути Hadoop в автономному або кластерному режимі.

У цьому посібнику для початківців ми встановимо Hadoop в автономному режимі на екземплярі сервера CentOS 7.

Передумови

  • Нещодавно створений екземпляр сервера Vultr CentOS 7 x64.
  • Користувач sudo .

Крок 1: Оновіть систему

Увійдіть як користувач sudo, а потім оновіть систему CentOS 7 до останнього стабільного стану:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Після того, як сервер буде онлайн, увійдіть знову.

Крок 2: Встановіть Java

Hadoop базується на Java, а OpenJDK 8 є рекомендованою версією для останньої стабільної версії.

Встановіть OpenJDK 8 JRE за допомогою YUM:

sudo yum install -y java-1.8.0-openjdk

Перевірте встановлення OpenJDK 8 JRE:

java -version

Вихід повинен нагадувати:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Крок 3: Встановіть Hadoop

Ви завжди можете знайти URL-адресу для завантаження останньої версії Hadoop на офіційній сторінці випуску Apache Hadoop . На момент написання цієї статті остання стабільна версія Hadoop — 2.7.3.

Завантажте двійковий архів Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Завантажте відповідний файл контрольної суми:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Встановіть інструмент контрольної суми:

sudo yum install perl-Digest-SHA

Обчисліть значення SHA256 архіву Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Відобразіть вміст файлу hadoop-2.7.3.tar.gz.mdsта переконайтеся, що два значення SHA256 ідентичні:

cat hadoop-2.7.3.tar.gz.mds

Розпакуйте архів у визначене місце:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Перш ніж ви зможете правильно запустити Hadoop, вам потрібно вказати домашнє розташування Java для нього.

Відкрийте файл конфігурації середовища Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shза допомогою viабо свого улюбленого текстового редактора:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Знайдіть рядок:

export JAVA_HOME=$

Замініть його на:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Цей параметр змусить Hadoop завжди використовувати місце встановлення Java за замовчуванням.

Збережіть і вийдіть:

:wq!

Ви можете додати шлях програми Hadoop до PATHзмінної середовища для вашої зручності:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Крок 4. Запустіть і перевірте Hadoop

Просто виконайте команду hadoop, і вам буде запропоновано використовувати команду hadoop та її різні параметри.

Тут ви можете використовувати вбудований приклад для перевірки вашої установки Hadoop.

Підготуйте джерело даних:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Використовуйте Hadoop разом із grep, щоб вивести результат:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Вихід має бути:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Нарешті, ви можете переглянути вміст вихідних файлів:

cat ~/output/*

Результат повинен бути:

6       principal
1       principal.

Тепер ви готові досліджувати Hadoop.

Залишити коментар

Повстання машин: застосування ШІ в реальному світі

Повстання машин: застосування ШІ в реальному світі

Штучний інтелект не в майбутньому, він тут прямо в сьогоденні У цьому блозі Прочитайте, як програми штучного інтелекту вплинули на різні сектори.

DDOS-атаки: короткий огляд

DDOS-атаки: короткий огляд

Ви також стали жертвою DDOS-атак і спантеличені методами запобігання? Прочитайте цю статтю, щоб вирішити свої запитання.

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Можливо, ви чули, що хакери заробляють багато грошей, але чи замислювалися ви коли-небудь, як вони заробляють такі гроші? давайте обговоримо.

Революційні винаходи від Google, які полегшать ваше життя.

Революційні винаходи від Google, які полегшать ваше життя.

Ви хочете побачити революційні винаходи Google і як ці винаходи змінили життя кожної людини сьогодні? Тоді читайте в блозі, щоб побачити винаходи Google.

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Концепція самокерованих автомобілів, щоб вирушати в дороги за допомогою штучного інтелекту, є мрією, яку ми давно мріємо. Але, незважаючи на кілька обіцянок, їх ніде не видно. Прочитайте цей блог, щоб дізнатися більше…

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Оскільки наука розвивається швидкими темпами, бере на себе багато наших зусиль, ризики піддати себе незрозумілій Сингулярності також зростає. Читайте, що може означати для нас сингулярність.

Функціональні можливості шарів еталонної архітектури великих даних

Функціональні можливості шарів еталонної архітектури великих даних

Прочитайте блог, щоб дізнатися про різні шари архітектури великих даних та їх функціональні можливості найпростішим способом.

Еволюція зберігання даних – інфографіка

Еволюція зберігання даних – інфографіка

Методи зберігання даних можуть розвиватися з моменту народження Даних. Цей блог висвітлює еволюцію зберігання даних на основі інфографіки.

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

У цьому цифровому світі пристрої розумного дому стали важливою частиною життя. Ось кілька дивовижних переваг пристроїв розумного дому щодо того, як вони роблять наше життя гідним життя та спрощують його.

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Нещодавно Apple випустила додаткове оновлення macOS Catalina 10.15.4, щоб виправити проблеми, але схоже, що оновлення викликає більше проблем, що призводять до блокування комп’ютерів Mac. Прочитайте цю статтю, щоб дізнатися більше