Funcionalitats de les capes darquitectura de referència de Big Data

Funcionalitats de les capes darquitectura de referència de Big Data

En el meu últim post , vam parlar sobre l'anàlisi del problema empresarial i els passos bàsics per dissenyar l'Arquitectura de Big Data. Avui parlaré de les diferents capes de l'Arquitectura de Big Data i les seves funcionalitats.

Capes lògiques de l'arquitectura de referència de Big Data

Darrere de l'arquitectura de big data, la idea bàsica és documentar una base adequada d'arquitectura, infraestructura i aplicacions. En conseqüència, això permet a les empreses utilitzar el big data de manera més eficaç cada dia.

Està creat per dissenyadors/arquitectes de big data abans d'implementar físicament una solució. La creació d'una arquitectura de big data requereix en general entendre l'empresa/organització i les seves necessitats de big data. Normalment, les arquitectures de big data descriuen els components de maquinari i programari que són necessaris per complir la solució de big data. Els documents d'arquitectura de grans dades també poden descriure protocols per compartir dades, integracions d'aplicacions i seguretat de la informació.

Més informació:  una guia per a principiants a l'anàlisi de dades massives

També implica interconnectar i organitzar els recursos existents per atendre les necessitats de big data.

Les capes lògiques de l'arquitectura de referència són les següents:

  • Identificació de la font de dades: saber d'on provenen aquestes dades.

El perfil d'origen és un dels passos més importants per decidir l'arquitectura o el big data. Implica identificar diferents sistemes font i categoritzar-los, en funció de la seva naturalesa i tipus.

Aspectes a tenir en compte a l'hora d'elaborar el perfil de les fonts de dades:

  1. Identificar sistemes de fonts internes i externes.
  2. Hipòtesi d'alt nivell per a la quantitat de dades ingerides de cada font
  3. Identifiqueu el mecanisme utilitzat per obtenir dades: push o pull
  4. Determineu el tipus de font de dades: base de dades, fitxer, servei web, fluxos, etc.
  5. Determineu el tipus de dades: estructurades, semiestructurades o no estructurades
  • Estratègia i adquisició d'ingestió de dades : procés per introduir dades al sistema.

La ingestió de dades es refereix a l'extracció de dades de les fonts esmentades anteriorment. Aquestes dades s'emmagatzemen a l'emmagatzematge i després es transformen per a un posterior processament.

Punts a tenir en compte:

  1. Determineu la freqüència amb què s'ingereixen les dades de cada font
  2. Cal canviar la semàntica de les dades?
  3. Es requereix alguna validació o transformació de dades abans de la ingestió (processament previ)?
  4. Separeu les fonts de dades segons el mode d'ingestió: per lots o en temps real
  • Emmagatzematge de dades : la instal·lació on s'emmagatzemaran les grans dades.

Un hauria de ser capaç d'emmagatzemar grans quantitats de dades de qualsevol tipus i s'hauria de poder escalar segons les necessitats. També hem de tenir en compte el nombre d'IOPS (operacions d'entrada de sortida per segon) que pot proporcionar. El sistema de fitxers distribuïts Hadoop és el marc d'emmagatzematge més utilitzat al món de Big Data, altres són els magatzems de dades NoSQL: MongoDB, HBase, Cassandra, etc.

Coses a tenir en compte a l'hora de planificar la metodologia d'emmagatzematge:

  1. Tipus de dades (històrics o incrementals)
  2. Format de les dades (estructurades, semiestructurades i no estructurades)
  3. Requisits de compressió
  4. Freqüència d'entrada de dades
  5. Patró de consulta a les dades
  6. Consumidors de les dades
  • Processament de dades : eines que proporcionen anàlisi sobre big data.

No només la quantitat de dades que s'emmagatzemen, sinó que el processament també s'ha multiplicat.

Les dades d'accés freqüent anteriors s'emmagatzemaven a RAM dinàmiques. Però ara, s'emmagatzema en diversos discs en diverses màquines connectades mitjançant xarxa a causa del gran volum. Per tant, en comptes de reunir fragments de dades per processar-los, els mòduls de processament es porten al big data. Així, es redueix significativament l'E/S de xarxa. La metodologia de processament es basa en els requisits empresarials. Es pot classificar en lots, en temps real o híbrid segons el SLA.

  1. Processament per lots  : el lot està recopilant l'entrada durant un interval de temps especificat i executant-hi transformacions de manera programada. La càrrega de dades històriques és una operació per lots típica
  2. Processament en temps real: el processament en temps real implica executar transformacions a mesura que s'adquireixen les dades.
  3. Processament híbrid : és una combinació de necessitats de processament per lots i en temps real.
  • Consum/utilització de dades : Usuaris/serveis que utilitzen les dades analitzades.

Aquesta capa consumeix la sortida proporcionada per la capa de processament. Diferents usuaris com administradors, usuaris empresarials, venedors, socis, etc. poden consumir dades en diferents formats. La sortida de l'anàlisi es pot consumir pel motor de recomanacions o els processos de negoci es poden activar en funció de l'anàlisi.

Les diferents formes de consum de dades són:

  1. Exporta conjunts de dades : hi pot haver requisits per a la generació de conjunts de dades de tercers. Els conjunts de dades es poden generar mitjançant l'exportació de rusc o directament des de HDFS.
  2. Informes i visualització : diferents escanejos d'eines d'informes i visualització es connecten a Hadoop mitjançant la connectivitat JDBC/ODBC per al rusc.
  3. Exploració de dades: el científic de dades pot crear models i realitzar una exploració profunda en un entorn de sandbox. Sandbox pot ser un clúster separat (enfocament recomanat) o un esquema separat dins del mateix clúster que conté un subconjunt de dades reals.
  4. Consulta adhoc : es pot donar suport a la consulta adhoc o interactiva mitjançant Hive, Impala o spark SQL.

Llegiu també:  Big Data: un malson futur?

Capes funcionals de l'arquitectura de Big Data:

Hi podria haver una manera més de definir l'arquitectura, és a dir, mitjançant la divisió de funcionalitats. Però les categories de funcionalitats es podrien agrupar en la capa lògica de l'arquitectura de referència, per tant, l'Arquitectura preferida és la que es fa amb capes lògiques.

La superposició basada en les funcionalitats és la següent:

  1. Fonts de dades:

En aquesta categoria s'han d'analitzar totes les fonts de les quals una organització rep les dades i que podrien ajudar l'organització a prendre decisions futures. Les fonts de dades enumerades aquí són independentment de si les dades estan estructurades, no estructurades o semiestructurades.

  1. Extracció de dades:

Abans de poder emmagatzemar, analitzar o visualitzar les vostres dades, n'heu de tenir-ne. L'extracció de dades consisteix a agafar quelcom que no està estructurat, com ara una pàgina web, i convertir-lo en una taula estructurada. Un cop el tingueu estructurat, podeu manipular-lo de tota mena de maneres, utilitzant les eines que es descriuen a continuació, per trobar informació.

  1. Emmagatzematge de dades:

La necessitat bàsica mentre es treballa amb big data és pensar com emmagatzemar aquestes dades. Part de com Big Data va obtenir la distinció com a "BIG" és que es va convertir en massa per als sistemes tradicionals. Un bon proveïdor d'emmagatzematge de dades us hauria d'oferir una infraestructura on executar totes les altres eines d'anàlisi, així com un lloc per emmagatzemar i consultar les vostres dades.

  1. Neteja de dades:

Un pas previ necessari abans de començar a extreure les dades per obtenir informació. Sempre és una bona pràctica crear un conjunt de dades net i ben estructurat. Els conjunts de dades poden tenir totes les formes i mides, especialment quan provenen del web. Trieu una eina segons els vostres requisits de dades.

  1. Mineria de dades:

La mineria de dades és el procés de descobrir coneixements dins d'una base de dades. L'objectiu de la mineria de dades és prendre decisions i prediccions sobre les dades que teniu a mà. Trieu un programari que us ofereixi les millors prediccions per a tot tipus de dades i us permeti crear els vostres propis algorismes per extreure les dades.

  1. Analítica de dades:

Tot i que la mineria de dades consisteix a examinar les vostres dades a la recerca de patrons no reconeguts anteriorment, l'anàlisi de dades consisteix a desglossar aquestes dades i avaluar l'impacte d'aquests patrons amb el temps. L'anàlisi consisteix a fer preguntes específiques i trobar les respostes a les dades. Fins i tot podeu fer preguntes sobre què passarà en el futur!

  1. Visualització de dades:

Les visualitzacions són una manera brillant i senzilla de transmetre informació complexa de dades. I la millor part és que la majoria d'ells no requereixen codificació. Les empreses de visualització de dades faran que les vostres dades cobren vida. Part del repte per a qualsevol científic de dades és transmetre la informació d'aquestes dades a la resta de la vostra empresa. Les eines us poden ajudar a crear gràfics, mapes i altres gràfics a partir de les vostres dades.

  1. Integració de dades:

Les plataformes d'integració de dades són la cola entre cada programa. Connecten les diferents inferències de les eines amb altres programaris. Podeu compartir els resultats de les vostres eines de visualització directament a Facebook mitjançant aquestes eines.

  1. Idiomes de dades:

Hi haurà moments en la vostra carrera de dades en què una eina simplement no la tallarà. Tot i que les eines actuals són cada cop més potents i fàcils d'utilitzar, de vegades és millor codificar-les tu mateix. Hi ha diferents idiomes que us ajuden en diferents aspectes com la informàtica estadística i els gràfics. Aquests llenguatges podrien funcionar com a complement per a la mineria de dades i els programaris estadístics.

Funcionalitats de les capes d'arquitectura de referència de Big Data

Els aspectes clau a recordar en el disseny de l'arquitectura de Big Data són:

  • Dinàmica d'ús : hi ha una sèrie d'escenaris, tal com s'il·lustra a l'article, que cal tenir en compte a l'hora de dissenyar l'arquitectura: forma i freqüència de les dades, tipus de dades, tipus de processament i anàlisi necessaris.
  • Infinitat de tecnologies: la  proliferació d'eines al mercat ha generat molta confusió sobre què utilitzar i quan, hi ha diverses tecnologies que ofereixen funcions similars i que afirmen ser millors que les altres.

Sé que estaries pensant en diferents eines per utilitzar per fer una solució de Big Data a prova completa. Bé, a les meves properes publicacions sobre Big Data, cobriria algunes de les millors eines per aconseguir diferents tasques en l'arquitectura de Big Data .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

La Intel·ligència Artificial no està en el futur, és aquí mateix en el present. En aquest bloc Llegiu com les aplicacions d'Intel·ligència Artificial han afectat diversos sectors.

Atacs DDOS: una breu visió general

Atacs DDOS: una breu visió general

També ets víctima d'atacs DDOS i estàs confós sobre els mètodes de prevenció? Llegiu aquest article per resoldre les vostres consultes.

Us heu preguntat mai com guanyen diners els pirates informàtics?

Us heu preguntat mai com guanyen diners els pirates informàtics?

Potser haureu sentit que els pirates informàtics guanyen molts diners, però us heu preguntat mai com guanyen aquest tipus de diners? anem a discutir.

Invents revolucionaris de Google que us facilitaran la vida.

Invents revolucionaris de Google que us facilitaran la vida.

Vols veure els invents revolucionaris de Google i com aquests invents van canviar la vida de tots els éssers humans actuals? A continuació, llegiu al bloc per veure els invents de Google.

Divendres essencial: què va passar amb els cotxes impulsats per IA?

Divendres essencial: què va passar amb els cotxes impulsats per IA?

El concepte de cotxes autònoms per sortir a les carreteres amb l'ajuda de la intel·ligència artificial és un somni que tenim des de fa temps. Però malgrat les diverses promeses, no es veuen enlloc. Llegeix aquest blog per saber-ne més...

Singularitat tecnològica: un futur llunyà de la civilització humana?

Singularitat tecnològica: un futur llunyà de la civilització humana?

A mesura que la ciència evoluciona a un ritme ràpid, fent-se càrrec de molts dels nostres esforços, també augmenten els riscos de sotmetre'ns a una singularitat inexplicable. Llegeix, què pot significar per a nosaltres la singularitat.

Evolució de lemmagatzematge de dades – Infografia

Evolució de lemmagatzematge de dades – Infografia

Els mètodes d'emmagatzematge de les dades que han anat evolucionant poden ser des del naixement de les dades. Aquest bloc tracta l'evolució de l'emmagatzematge de dades a partir d'una infografia.

Funcionalitats de les capes darquitectura de referència de Big Data

Funcionalitats de les capes darquitectura de referència de Big Data

Llegeix el blog per conèixer de la manera més senzilla les diferents capes de l'Arquitectura Big Data i les seves funcionalitats.

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

6 avantatges sorprenents de tenir dispositius domèstics intel·ligents a les nostres vides

En aquest món digital, els dispositius domèstics intel·ligents s'han convertit en una part crucial de les vides. A continuació, es mostren alguns avantatges sorprenents dels dispositius domèstics intel·ligents sobre com fan que la nostra vida valgui la pena i sigui més senzilla.

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Lactualització del suplement de macOS Catalina 10.15.4 està causant més problemes que no pas solucions

Recentment, Apple va llançar macOS Catalina 10.15.4, una actualització de suplements per solucionar problemes, però sembla que l'actualització està causant més problemes que provoquen el bloqueig de les màquines Mac. Llegiu aquest article per obtenir més informació