Функционалности на референтните архитектурни слоеве за големи данни

Функционалности на референтните архитектурни слоеве за големи данни

В последната ми публикация обсъдихме анализирането на бизнес проблема и основните стъпки за проектиране на архитектурата на големи данни. Днес ще говоря за различните слоеве в архитектурата на големите данни и техните функционалности.

Логически слоеве на референтната архитектура за големи данни

Зад архитектурата за големи данни основната идея е да се документира правилната основа на архитектура, инфраструктура и приложения. Следователно това позволява на бизнеса да използва по-ефективно големи данни в ежедневието.

Създава се от дизайнери/архитекти на големи данни преди физическото прилагане на решение. Създаването на архитектура за големи данни обикновено изисква разбиране на бизнеса/организацията и нейните нужди от големи данни. Обикновено архитектурите за големи данни очертават хардуерните и софтуерните компоненти, които са необходими за изпълнение на решението за големи данни. Документите за архитектура на големи данни могат също да описват протоколи за споделяне на данни, интеграция на приложения и информационна сигурност.

Повече информация:  Ръководство за начинаещи за анализ на големи данни

Това също така включва взаимно свързване и организиране на съществуващи ресурси за обслужване на нуждите от големи данни.

Логическите слоеве на референтната архитектура са както следва:

  • Идентификация на източника на данни: Знание откъде са получени тези данни.

Профилирането на източника е една от най-важните стъпки при вземането на решение за архитектурата или големите данни. Това включва идентифициране на различни изходни системи и категоризирането им въз основа на тяхното естество и тип.

Точки, които трябва да се вземат предвид при профилиране на източници на данни:

  1. Идентифицирайте системи за вътрешни и външни източници.
  2. Предположение на високо ниво за количеството данни, погълнати от всеки източник
  3. Идентифицирайте механизма, използван за получаване на данни – натиснете или издърпайте
  4. Определете типа източник на данни – база данни, файл, уеб услуга, потоци и т.н.
  5. Определете вида на данните – структурирани, полуструктурирани или неструктурирани
  • Стратегия за поглъщане и придобиване на данни : Процес за въвеждане на данни в системата.

Поглъщането на данни е свързано с извличането на данните от гореспоменатите източници. Тези данни се съхраняват в хранилището и след това се трансформират за по-нататъшна обработка върху него.

Точки, които трябва да се вземат предвид:

  1. Определете честотата, с която данните ще бъдат приемани от всеки източник
  2. Има ли нужда от промяна на семантиката на данните?
  3. Има ли необходимост от валидиране или трансформация на данните преди поглъщане (предварителна обработка)?
  4. Разделете източниците на данни въз основа на режима на поглъщане – пакетно или в реално време
  • Съхранение на данни : Съоръжението, където действително ще се съхраняват големи данни.

Човек трябва да може да съхранява големи количества данни от всякакъв тип и трябва да може да мащабира според нуждите. Трябва също да вземем предвид броя на IOPS (входни изходни операции в секунда), които може да осигури. Разпределената файлова система Hadoop е най-често използваната рамка за съхранение в света на големите данни, други са хранилищата на данни NoSQL - MongoDB, HBase, Cassandra и др.

Неща, които трябва да имате предвид, когато планирате методологията за съхранение:

  1. Тип данни (исторически или инкрементални)
  2. Формат на данните (структурирани, полуструктурирани и неструктурирани)
  3. Изисквания за компресия
  4. Честота на входящи данни
  5. Модел на заявка върху данните
  6. Потребители на данните
  • Обработка на данни : Инструменти, които предоставят анализ на големи данни.

Не само количеството съхранявани данни, но и обработката се е увеличила многократно.

По-рано често достъпните данни се съхраняваха в динамични RAM памети. Но сега той се съхранява на множество дискове на редица машини, свързани чрез мрежа, поради големия обем. Следователно, вместо да събират парчета данни за обработка, модулите за обработка се отвеждат към големите данни. По този начин значително намаляване на мрежовия I/O. Методологията за обработка се ръководи от бизнес изискванията. Тя може да бъде категоризирана в пакетна, в реално време или хибридна въз основа на SLA.

  1. Пакетна обработка  – Пакетът събира входните данни за определен интервал от време и извършва трансформации върху него по планиран начин. Зареждането на исторически данни е типична пакетна операция
  2. Обработка в реално времеОбработката в реално време включва извършване на трансформации при получаване на данните.
  3. Хибридна обработка – Това е комбинация от нужди от пакетна обработка и обработка в реално време.
  • Консумация/използване на данни : Потребители/услуги, които използват анализираните данни.

Този слой консумира продукция, предоставена от обработващия слой. Различни потребители като администратор, бизнес потребители, доставчик, партньори и т.н. могат да консумират данни в различен формат. Резултатът от анализа може да бъде използван от препоръчителната машина или бизнес процеси могат да бъдат задействани въз основа на анализа.

Различните форми на потребление на данни са:

  1. Експортиране на набори от данни Може да има изисквания за генериране на набор от данни от трети страни. Наборите от данни могат да бъдат генерирани чрез експортиране на кошер или директно от HDFS.
  2. Отчитане и визуализация – Различни инструменти за отчитане и визуализация се свързват с Hadoop чрез JDBC/ODBC свързаност към кошера.
  3. Проучване на данни – Учен от данни може да създава модели и да извършва дълбоко проучване в среда на пясъчник. Sandbox може да бъде отделен клъстер (препоръчителен подход) или отделна схема в рамките на същия клъстер, който съдържа подмножество от действителни данни.
  4. Adhoc заявка – Adhoc или интерактивна заявка може да се поддържа чрез използване на Hive, Impala или spark SQL.

Прочетете също:  Големите данни: бъдещ кошмар?

Функционални слоеве на архитектурата на големите данни:

Може да има още един начин за дефиниране на архитектурата, т.е. чрез разделението на функционалността. Но категориите за функционалност могат да бъдат групирани заедно в логическия слой на референтната архитектура, така че предпочитаната архитектура е тази, извършена с помощта на логически слоеве.

Наслояването въз основа на функционалностите е както следва:

  1. Източници на данни:

Анализирането на всички източници, от които една организация получава данни и които биха могли да помогнат на организацията при вземането на бъдещи решения, трябва да бъде изброено в тази категория. Източниците на данни, изброени тук, са независимо дали данните са структурирани, неструктурирани или полуструктурирани.

  1. Извличане на данни:

Преди да можете да съхранявате, анализирате или визуализирате вашите данни, трябва да имате някои. Извличането на данни е свързано с вземането на нещо, което е неструктурирано, като уеб страница, и превръщането му в структурирана таблица. След като го структурирате, можете да го манипулирате по всякакви начини, като използвате инструментите, описани по-долу, за да намерите прозрения.

  1. Хранилище за данни:

Основната необходимост, докато работите с големи данни, е да мислите как да съхранявате тези данни. Част от това как Big Data получиха разликата като „ГОЛЕМИ“ е, че станаха твърде много за традиционните системи, за да се справят. Добрият доставчик на съхранение на данни трябва да ви предложи инфраструктура, върху която да изпълнявате всичките си други инструменти за анализ, както и място за съхранение и запитване на вашите данни.

  1. Почистване на данни:

Предварително необходима стъпка, преди всъщност да започнем да копаем данните за прозрения. Винаги е добра практика да се създаде чист, добре структуриран набор от данни. Наборите от данни могат да се предлагат във всякакви форми и размери, особено когато идват от мрежата. Изберете инструмент според вашите изисквания за данни.

  1. Извличане на данни:

Извличането на данни е процесът на откриване на прозрения в база данни. Целта на извличането на данни е да се вземат решения и прогнози върху данните, които имате под ръка. Изберете софтуер, който ви дава най-добрите прогнози за всички видове данни и ви позволява да създавате свои собствени алгоритми за копаене на данните.

  1. Анализ на данни:

Докато извличането на данни е свързано с пресяване на вашите данни в търсене на неразпознати по-рано модели, анализът на данните е за разбиване на тези данни и оценка на въздействието на тези модели извънредно време. Анализът е свързан с задаването на конкретни въпроси и намирането на отговорите в данните. Можете дори да задавате въпроси за това какво ще се случи в бъдеще!

  1. Визуализация на данни:

Визуализациите са ярък и лесен начин за предаване на сложни данни. И най-хубавото е, че повечето от тях не изискват кодиране. Компаниите за визуализация на данни ще оживеят вашите данни. Част от предизвикателството за всеки учен по данни е да предаде прозренията от тези данни на останалата част от вашата компания. Инструментите могат да ви помогнат да създавате диаграми, карти и други подобни графики от вашите данни.

  1. Интегриране на данни:

Платформите за интегриране на данни са лепилото между всяка програма. Те свързват различните изводи на инструментите с други софтуери. Можете да споделите резултатите от вашите инструменти за визуализация директно във Facebook чрез тези инструменти.

  1. Езици на данни:

Ще има моменти във вашата кариера с данни, когато инструмент просто няма да го отреже. Докато днешните инструменти стават все по-мощни и по-лесни за използване, понякога е по-добре да ги кодирате сами. Има различни езици, които ви помагат в различни аспекти като статистически изчисления и графики. Тези езици могат да работят като допълнение към софтуера за извличане на данни и статистически софтуер.

Функционалности на референтните архитектурни слоеве за големи данни

Основното нещо, което трябва да запомните при проектирането на архитектура на големи данни, са:

  • Динамика на използване : Има редица сценарии, както е илюстрирано в статията, които трябва да се имат предвид при проектирането на архитектурата – форма и честота на данните, тип данни, тип обработка и необходими анализи.
  • Безброй технологии:  Разпространението на инструменти на пазара доведе до много объркване относно това какво да се използва и кога, има множество технологии, които предлагат подобни функции и твърдят, че са по-добри от останалите.

Знам, че ще мислите за различни инструменти, които да използвате, за да създадете пълно доказателство за решение за големи данни. Е, в предстоящите си публикации за Big Data ще разгледам някои най-добри инструменти за постигане на различни задачи в архитектурата на големи данни .


Възходът на машините: Реални приложения на AI

Възходът на машините: Реални приложения на AI

Изкуственият интелект не е в бъдещето, тук е точно в настоящето. В този блог Прочетете как приложенията за изкуствен интелект са повлияли на различни сектори.

DDOS атаки: кратък преглед

DDOS атаки: кратък преглед

Вие също сте жертва на DDOS атаки и сте объркани относно методите за превенция? Прочетете тази статия, за да разрешите вашите запитвания.

Чудили ли сте се как хакерите печелят пари?

Чудили ли сте се как хакерите печелят пари?

Може би сте чували, че хакерите печелят много пари, но чудили ли сте се някога как печелят такива пари? нека обсъдим.

Революционни изобретения на Google, които ще улеснят живота ви.

Революционни изобретения на Google, които ще улеснят живота ви.

Искате ли да видите революционни изобретения на Google и как тези изобретения промениха живота на всяко човешко същество днес? След това прочетете в блога, за да видите изобретенията на Google.

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Friday Essential: Какво се случи с колите, задвижвани от изкуствен интелект?

Концепцията за самоуправляващи се автомобили да тръгват по пътищата с помощта на изкуствен интелект е мечта, която имаме от известно време. Но въпреки няколкото обещания, те не се виждат никъде. Прочетете този блог, за да научите повече…

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Технологична сингулярност: далечно бъдеще на човешката цивилизация?

Тъй като науката се развива с бързи темпове, поемайки много от нашите усилия, рискът да се подложим на необяснима сингулярност също нараства. Прочетете какво може да означава сингулярността за нас.

Еволюция на съхранението на данни – инфографика

Еволюция на съхранението на данни – инфографика

Методите за съхранение на данните може да се развиват от раждането на данните. Този блог обхваща развитието на съхранението на данни на базата на инфографика.

Функционалности на референтните архитектурни слоеве за големи данни

Функционалности на референтните архитектурни слоеве за големи данни

Прочетете блога, за да разберете различни слоеве в архитектурата на големи данни и техните функционалности по най-простия начин.

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

6 невероятни предимства от наличието на интелигентни домашни устройства в живота ни

В този дигитално задвижван свят устройствата за интелигентен дом се превърнаха в решаваща част от живота. Ето няколко невероятни предимства на интелигентните домашни устройства за това как те правят живота ни струващ и по-опростен.

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Актуализацията на допълнението на macOS Catalina 10.15.4 причинява повече проблеми, отколкото решава

Наскоро Apple пусна macOS Catalina 10.15.4 допълнителна актуализация за отстраняване на проблеми, но изглежда, че актуализацията причинява повече проблеми, водещи до блокиране на mac машини. Прочетете тази статия, за да научите повече