Функціональні можливості шарів еталонної архітектури великих даних

Функціональні можливості шарів еталонної архітектури великих даних

У моїй останній публікації ми обговорювали аналіз бізнес-проблеми та основні кроки для проектування архітектури великих даних. Сьогодні я збираюся розповісти про різні шари в архітектурі великих даних та їх функціональні можливості.

Логічні шари еталонної архітектури великих даних

Основна ідея архітектури великих даних полягає в тому, щоб задокументувати правильний фундамент архітектури, інфраструктури та додатків. Отже, це дає змогу підприємствам більш ефективно використовувати великі дані щодня.

Його створюють дизайнери/архітектори з великих даних, перш ніж фізично реалізувати рішення. Створення архітектури великих даних зазвичай вимагає розуміння бізнесу/організації та її потреб у великих даних. Як правило, архітектури великих даних окреслюють апаратні та програмні компоненти, необхідні для виконання рішення для великих даних. Документи архітектури великих даних можуть також описувати протоколи для обміну даними, інтеграції додатків та інформаційної безпеки.

Додаткова інформація:  Посібник для початківців з аналізу великих даних

Це також передбачає взаємозв’язок і організацію існуючих ресурсів для обслуговування потреб великих даних.

Нижче наведено логічні рівні еталонної архітектури:

  • Ідентифікація джерела даних: знати, звідки ці дані.

Профілювання джерела є одним з найважливіших кроків у виборі архітектури або великих даних. Це передбачає визначення різних систем джерел та їх класифікацію на основі їх природи та типу.

Моменти, які слід враховувати під час профілювання джерел даних:

  1. Визначте внутрішні та зовнішні системи джерел.
  2. Припущення високого рівня для кількості даних, що надходять із кожного джерела
  3. Визначте механізм, який використовується для отримання даних – натискайте або витягуйте
  4. Визначте тип джерела даних – база даних, файл, веб-сервіс, потоки тощо.
  5. Визначте тип даних – структуровані, напівструктуровані чи неструктуровані
  • Стратегія прийому та отримання даних : процес введення даних у систему.

Прийняття даних – це вилучення даних із вищезгаданих джерел. Ці дані зберігаються в сховищі, а потім трансформуються для подальшої обробки на ньому.

Моменти, які слід враховувати:

  1. Визначте частоту, з якою дані будуть надходити з кожного джерела
  2. Чи потрібно змінювати семантику даних?
  3. Чи потрібна перевірка або перетворення даних перед прийомом (попередня обробка)?
  4. Розділіть джерела даних за режимом прийому – пакетний або в режимі реального часу
  • Зберігання даних : об’єкт, де фактично будуть зберігатися великі дані.

Потрібно вміти зберігати великі обсяги даних будь-якого типу і мати можливість масштабувати за потребою. Ми також повинні враховувати кількість операцій введення в секунду (IOPS), які він може забезпечити. Розподілена файлова система Hadoop є найбільш часто використовуваною системою зберігання даних у світі великих даних, інші — це сховища даних NoSQL — MongoDB, HBase, Cassandra тощо.

Що потрібно враховувати при плануванні методології зберігання:

  1. Тип даних (історичні або додаткові)
  2. Формат даних (структурований, напівструктурований і неструктурований)
  3. Вимоги до стиснення
  4. Частота надходження даних
  5. Шаблон запиту до даних
  6. Споживачі даних
  • Обробка даних : інструменти, які забезпечують аналіз великих даних.

Багаторазово зросла не тільки кількість даних, що зберігаються, але й обробка.

Раніше часто використовувані дані зберігалися в Dynamic RAM. Але тепер він зберігається на кількох дисках на кількох машинах, підключених через мережу через величезний обсяг. Тому замість того, щоб збирати фрагменти даних для обробки, модулі обробки передаються до великих даних. Таким чином, значно скорочується мережевий ввод-вивод. Методологія обробки визначається вимогами бізнесу. Він може бути класифікований на пакетний, у режимі реального часу або гібридний на основі SLA.

  1. Пакетна обробка. Пакетна обробка  збирає вхідні дані за певний проміжок часу та виконує перетворення на ньому за розкладом. Завантаження історичних даних є типовою пакетною операцією
  2. Обробка в режимі реального часу. Обробка в режимі реального часу передбачає виконання перетворень у міру отримання даних.
  3. Гібридна обробка – це комбінація як пакетної обробки, так і потреб обробки в режимі реального часу.
  • Споживання/використання даних : користувачі/послуги, які використовують аналізовані дані.

Цей рівень споживає вихід, наданий шаром обробки. Різні користувачі, такі як адміністратор, бізнес-користувачі, постачальники, партнери тощо, можуть використовувати дані в різному форматі. Вихідні дані аналізу можуть бути використані механізмом рекомендацій або бізнес-процеси можуть бути запущені на основі аналізу.

Різні форми споживання даних:

  1. Експортувати набори даних можуть бути вимоги до створення набору даних сторонніх розробників. Набори даних можна генерувати за допомогою експорту вулика або безпосередньо з HDFS.
  2. Звітування та візуалізація. Різні інструменти для створення звітів та візуалізації підключаються до Hadoop за допомогою підключення JDBC/ODBC до вулика.
  3. Дослідження даних – вчений з даних може створювати моделі та виконувати глибоке дослідження в середовищі пісочниці. Пісочниця може бути окремим кластером (рекомендований підхід) або окремою схемою в тому самому кластері, яка містить підмножину фактичних даних.
  4. Запити Adhoc – Adhoc або інтерактивні запити можна підтримувати за допомогою Hive, Impala або spark SQL.

Читайте також:  Великі дані: кошмар майбутнього?

Функціональні рівні архітектури великих даних:

Може бути ще один спосіб визначення архітектури, тобто через поділ функціональності. Але категорії функціональності можуть бути згруповані разом у логічний рівень еталонної архітектури, тому бажана архітектура, яка виконується за допомогою логічних шарів.

Розшарування на основі функціональних можливостей виглядає нижче:

  1. Джерела даних:

Аналізуючи всі джерела, з яких організація отримує дані і які можуть допомогти організації у прийнятті майбутніх рішень, слід перерахувати в цій категорії. Перелічені тут джерела даних є незалежно від того, чи є дані структурованими, неструктурованими чи напівструктурованими.

  1. Вилучення даних:

Перш ніж ви зможете зберігати, аналізувати або візуалізувати свої дані, ви повинні мати деякі. Вилучення даних полягає в тому, щоб взяти щось неструктуроване, наприклад, веб-сторінку, і перетворити це на структуровану таблицю. Після того, як ви його структуруєте, ви можете маніпулювати ним різними способами, використовуючи інструменти, описані нижче, щоб знайти інформацію.

  1. Зберігання даних:

Основна потреба під час роботи з великими даними — подумати, як зберігати ці дані. Частково те, як великі дані отримали відмітку як «ВЕЛИКІ», полягає в тому, що традиційні системи стали занадто великими для обробки. Хороший постачальник сховища даних повинен запропонувати вам інфраструктуру для запуску всіх інших інструментів аналітики, а також місце для зберігання та запиту ваших даних.

  1. Очищення даних:

Попередній необхідний крок, перш ніж ми фактично почнемо добувати дані для розуміння. Завжди корисно створити чистий, добре структурований набір даних. Набори даних можуть бути будь-яких форм і розмірів, особливо якщо вони надходять з Інтернету. Виберіть інструмент відповідно до ваших вимог до даних.

  1. Видобуток даних:

Інтелектуальний аналіз даних — це процес виявлення інформації в базі даних. Метою аналізу даних є прийняття рішень і передбачення даних, які є у вас під рукою. Виберіть програмне забезпечення, яке дає вам найкращі прогнози для всіх типів даних і дозволяє створювати власні алгоритми для видобутку даних.

  1. Аналітика даних:

У той час як інтелектуальний аналіз даних полягає в тому, щоб просіяти ваші дані в пошуках раніше нерозпізнаних закономірностей, аналіз даних полягає в тому, щоб розбити ці дані та оцінити вплив цих закономірностей понаднормово. Аналітика — це постановка конкретних запитань і пошук відповідей у ​​даних. Ви навіть можете задати питання про те, що буде в майбутньому!

  1. Візуалізація даних:

Візуалізації – це яскравий і простий спосіб передати складні дані. І найкраще те, що більшість із них не вимагають кодування. Компанії з візуалізації даних оживлять ваші дані. Частина завдання для будь-якого вченого з даних полягає в тому, щоб передати інформацію з цих даних решті вашої компанії. Інструменти можуть допомогти вам створювати діаграми, карти та іншу подібну графіку на основі ваших даних.

  1. Інтеграція даних:

Платформи інтеграції даних є сполучною ланкою між кожною програмою. Вони пов’язують різні висновки інструментів з іншим програмним забезпеченням. Ви можете поділитися результатами своїх інструментів візуалізації безпосередньо на Facebook за допомогою цих інструментів.

  1. Мови даних:

У вашій кар’єрі даних будуть випадки, коли інструмент просто не зможе їх обрізати. Хоча сьогоднішні інструменти стають потужнішими та простішими у використанні, іноді просто краще закодувати їх самостійно. Існують різні мови, які допомагають вам у різних аспектах, як-от статистичні обчислення та графіка. Ці мови можуть працювати як доповнення до програмного забезпечення для аналізу даних та статистичних даних.

Функціональні можливості шарів еталонної архітектури великих даних

Головне, що потрібно пам’ятати при розробці архітектури великих даних:

  • Динаміка використання : існує ряд сценаріїв, як показано в статті, які необхідно враховувати під час проектування архітектури – форма та частота даних, тип даних, тип обробки та необхідна аналітика.
  • Безліч технологій:  Поширення інструментів на ринку призвело до великої плутанини щодо того, що і коли використовувати, існує безліч технологій, які пропонують подібні функції і стверджують, що вони кращі за інші.

Я знаю, що ви подумаєте про різні інструменти, які можна використовувати для створення повноцінного рішення для великих даних. Що ж, у своїх майбутніх публікаціях про великі дані я розповім про деякі найкращі інструменти для досягнення різних завдань в архітектурі великих даних .


Повстання машин: застосування ШІ в реальному світі

Повстання машин: застосування ШІ в реальному світі

Штучний інтелект не в майбутньому, він тут прямо в сьогоденні У цьому блозі Прочитайте, як програми штучного інтелекту вплинули на різні сектори.

DDOS-атаки: короткий огляд

DDOS-атаки: короткий огляд

Ви також стали жертвою DDOS-атак і спантеличені методами запобігання? Прочитайте цю статтю, щоб вирішити свої запитання.

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Ви коли-небудь замислювалися, як хакери заробляють гроші?

Можливо, ви чули, що хакери заробляють багато грошей, але чи замислювалися ви коли-небудь, як вони заробляють такі гроші? давайте обговоримо.

Революційні винаходи від Google, які полегшать ваше життя.

Революційні винаходи від Google, які полегшать ваше життя.

Ви хочете побачити революційні винаходи Google і як ці винаходи змінили життя кожної людини сьогодні? Тоді читайте в блозі, щоб побачити винаходи Google.

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Friday Essential: Що сталося з автомобілями, керованими штучним інтелектом?

Концепція самокерованих автомобілів, щоб вирушати в дороги за допомогою штучного інтелекту, є мрією, яку ми давно мріємо. Але, незважаючи на кілька обіцянок, їх ніде не видно. Прочитайте цей блог, щоб дізнатися більше…

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Технологічна сингулярність: віддалене майбутнє людської цивілізації?

Оскільки наука розвивається швидкими темпами, бере на себе багато наших зусиль, ризики піддати себе незрозумілій Сингулярності також зростає. Читайте, що може означати для нас сингулярність.

Еволюція зберігання даних – інфографіка

Еволюція зберігання даних – інфографіка

Методи зберігання даних можуть розвиватися з моменту народження Даних. Цей блог висвітлює еволюцію зберігання даних на основі інфографіки.

Функціональні можливості шарів еталонної архітектури великих даних

Функціональні можливості шарів еталонної архітектури великих даних

Прочитайте блог, щоб дізнатися про різні шари архітектури великих даних та їх функціональні можливості найпростішим способом.

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

6 дивовижних переваг використання пристроїв розумного дому в нашому житті

У цьому цифровому світі пристрої розумного дому стали важливою частиною життя. Ось кілька дивовижних переваг пристроїв розумного дому щодо того, як вони роблять наше життя гідним життя та спрощують його.

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Оновлення доповнення macOS Catalina 10.15.4 спричиняє більше проблем, ніж вирішує

Нещодавно Apple випустила додаткове оновлення macOS Catalina 10.15.4, щоб виправити проблеми, але схоже, що оновлення викликає більше проблем, що призводять до блокування комп’ютерів Mac. Прочитайте цю статтю, щоб дізнатися більше