Funksjonaliteter til Big Data Reference Architecture Layers

Funksjonaliteter til Big Data Reference Architecture Layers

I mitt siste innlegg diskuterte vi analyse av forretningsproblemet og grunnleggende trinn for å designe Big Data Architecture. I dag skal jeg snakke om forskjellige lag i Big Data-arkitekturen og deres funksjoner.

Logiske lag av Big Data Reference Architecture

Bak big data-arkitektur er kjerneideen å dokumentere et riktig grunnlag for arkitektur, infrastruktur og applikasjoner. Følgelig lar dette bedrifter bruke big data mer effektivt på daglig basis.

Den er laget av big data designere/arkitekter før de fysisk implementerer en løsning. Å lage big data-arkitektur krever generelt forståelse for virksomheten/organisasjonen og dens big data-behov. Vanligvis skisserer big data-arkitekturer maskinvare- og programvarekomponentene som er nødvendige for å oppfylle big data-løsningen. Big data-arkitekturdokumenter kan også beskrive protokoller for datadeling, applikasjonsintegrasjoner og informasjonssikkerhet.

Mer informasjon:  En nybegynnerveiledning til Big Data Analytics

Det innebærer også sammenkobling og organisering av eksisterende ressurser for å betjene store databehov.

De logiske lagene i referansearkitekturen er som nedenfor:

  • Datakildeidentifikasjon: Å vite hvor disse dataene er hentet fra.

Kildeprofilering er et av de viktigste trinnene for å bestemme arkitekturen eller big data. Det innebærer å identifisere ulike kildesystemer og kategorisere dem, basert på deres natur og type.

Punkter som bør vurderes ved profilering av datakilder:

  1. Identifisere interne og eksterne kildesystemer.
  2. Høyt nivå antakelse for mengden data som tas inn fra hver kilde
  3. Identifiser mekanismen som brukes til å hente data – push eller pull
  4. Bestem typen datakilde – Database, Fil, webtjeneste, strømmer osv.
  5. Bestem typen data – strukturert, semistrukturert eller ustrukturert
  • Datainntaksstrategi og innhenting : Prosess for å legge inn data i systemet.

Datainntak handler om utvinning av data fra de ovennevnte kildene. Disse dataene lagres i lageret og deretter transformeres for videre behandling på dem.

Punkter som bør vurderes:

  1. Bestem hvor ofte data skal tas inn fra hver kilde
  2. Er det behov for å endre datasemantikk?
  3. Er det nødvendig med datavalidering eller transformasjon før inntak (forhåndsbehandling)?
  4. Segreger datakildene basert på modus for inntak – batch eller sanntid
  • Datalagring : Anlegget der store data faktisk vil bli lagret.

Man bør kunne lagre store mengder data av enhver type og bør kunne skalere etter behov. Vi bør også vurdere antall IOPS (Input output-operasjoner per sekund) som den kan gi. Hadoop distribuerte filsystem er det mest brukte lagringsrammeverket i Big Data-verdenen, andre er NoSQL-datalagrene - MongoDB, HBase, Cassandra etc.

Ting du bør vurdere når du planlegger lagringsmetodikk:

  1. Type data (historisk eller inkrementell)
  2. Dataformat (strukturert, semistrukturert og ustrukturert)
  3. Kompresjonskrav
  4. Frekvens av innkommende data
  5. Spørringsmønster på dataene
  6. Forbrukere av dataene
  • Databehandling : Verktøy som gir analyse over store data.

Ikke bare mengden data som lagres, men behandlingen har også økt mangedoblet.

Tidligere ofte brukte data ble lagret i dynamiske RAM-er. Men nå blir det lagret på flere disker på en rekke maskiner koblet til via nettverk på grunn av stort volum. Derfor, i stedet for å samle databiter for behandling, blir prosesseringsmoduler tatt med til big data. Dermed reduseres nettverkets I/O betydelig. Behandlingsmetodikken er drevet av forretningskrav. Den kan kategoriseres i batch, sanntid eller hybrid basert på SLA.

  1. Batch Processing  - Batch samler inngangen for et bestemt tidsintervall, og å kjøre transformasjoner på den på en planlagt måte. Historisk datainnlasting er en typisk batchoperasjon
  2. Sanntidsbehandling – Sanntidsbehandling innebærer å kjøre transformasjoner etter hvert som data innhentes.
  3. Hybrid prosessering – Det er en kombinasjon av både batch- og sanntidsbehandlingsbehov.
  • Dataforbruk/-bruk : Brukere/tjenester som utnytter dataene som er analysert.

Dette laget bruker utdata fra behandlingslaget. Ulike brukere som administrator, forretningsbrukere, leverandør, partnere etc. kan konsumere data i forskjellige formater. Utdata fra analyse kan konsumeres av anbefalingsmotor eller forretningsprosesser kan utløses basert på analysen.

Ulike former for dataforbruk er:

  1. Eksporter datasett Det kan være krav til generering av tredjeparts datasett. Datasett kan genereres ved hjelp av bikubeksport eller direkte fra HDFS.
  2. Rapportering og visualisering – Ulike rapporterings- og visualiseringsverktøy skanner koble til Hadoop ved å bruke JDBC/ODBC-tilkobling for å hive.
  3. Datautforskning – Dataforsker kan bygge modeller og utføre dyp utforskning i et sandkassemiljø. Sandbox kan være en separat klynge (anbefalt tilnærming) eller et separat skjema i samme klynge som inneholder delsett av faktiske data.
  4. Adhoc-spørring – Adhoc- eller interaktiv spørring kan støttes ved å bruke Hive, Impala eller spark SQL.

Les også:  Big Data: A Future Nightmare?

Funksjonelle lag av Big Data-arkitekturen:

Det kan være en annen måte å definere arkitekturen på, dvs. er gjennom funksjonalitetsdivisjonen. Men funksjonalitetskategoriene kan grupperes sammen i det logiske laget av referansearkitektur, så den foretrukne arkitekturen er en som gjøres ved å bruke logiske lag.

Lagdelingen basert på funksjonene er som nedenfor:

  1. Datakilder:

Analyser av alle kildene som en organisasjon mottar data fra og som kan hjelpe organisasjonen med å ta sine fremtidige beslutninger, bør listes opp i denne kategorien. Datakildene som er oppført her er uavhengig av om dataene er strukturerte, ustrukturerte eller semistrukturerte.

  1. Datautvinning:

Før du kan lagre, analysere eller visualisere dataene dine, må du ha noen. Datautvinning handler om å ta noe som er ustrukturert, som en nettside, og gjøre det om til en strukturert tabell. Når du har fått det strukturert, kan du manipulere det på alle mulige måter, ved å bruke verktøyene beskrevet nedenfor, for å finne innsikt.

  1. Datalagring:

Den grunnleggende nødvendigheten når du jobber med big data er å tenke på hvordan du lagrer disse dataene. En del av hvordan Big Data fikk utmerkelsen som "BIG" er at det ble for mye for de tradisjonelle systemene å håndtere. En god datalagringsleverandør bør tilby deg en infrastruktur for å kjøre alle de andre analyseverktøyene dine, samt et sted å lagre og spørre etter dataene dine.

  1. Datarensing:

Et nødvendig trinn før vi faktisk begynner å gruve dataene for innsikt. Det er alltid en god praksis å lage et rent, godt strukturert datasett. Datasett kan komme i alle former og størrelser, spesielt når de kommer fra nettet. Velg et verktøy i henhold til datakravet ditt.

  1. Datautvinning:

Data mining er prosessen med å oppdage innsikt i en database. Målet med data mining er å ta beslutninger og spådommer på dataene du har for hånden. Velg en programvare som gir deg de beste forutsigelsene for alle typer data og lar deg lage dine egne algoritmer for utvinning av dataene.

  1. Dataanalyse:

Mens datautvinning handler om å sile gjennom dataene dine på jakt etter tidligere ukjente mønstre, handler dataanalyse om å bryte ned disse dataene og vurdere virkningen av disse mønstrene overtid. Analytics handler om å stille spesifikke spørsmål og finne svarene i data. Du kan til og med stille spørsmål om hva som vil skje i fremtiden!

  1. Datavisualisering:

Visualiseringer er en lys og enkel måte å formidle kompleks datainnsikt på. Og det beste er at de fleste av dem ikke krever noen koding. Datavisualiseringsselskaper vil gjøre dataene dine levende. En del av utfordringen for enhver dataforsker er å formidle innsikten fra disse dataene til resten av bedriften din. Verktøy kan hjelpe deg med å lage diagrammer, kart og annen slik grafikk ut fra datainnsikten din.

  1. Dataintegrasjon:

Dataintegrasjonsplattformer er limet mellom hvert program. De kobler de forskjellige konklusjonene til verktøyene med andre programvarer. Du kan dele resultatene av visualiseringsverktøyene dine direkte på Facebook gjennom disse verktøyene.

  1. Dataspråk:

Det vil være tider i datakarrieren din når et verktøy rett og slett ikke vil kutte det. Mens dagens verktøy blir kraftigere og enklere å bruke, er det noen ganger bare bedre å kode det selv. Det er forskjellige språk som hjelper deg med forskjellige aspekter som statistisk databehandling og grafikk. Disse språkene kan fungere som et supplement for datautvinning og statistisk programvare.

Funksjonaliteter til Big Data Reference Architecture Layers

Nøkkelen å huske når du designer Big Data Architecture er:

  • Bruksdynamikk : Det er en rekke scenarier som illustrert i artikkelen som må vurderes under utformingen av arkitekturen – form og frekvens av data, Type data, Type prosessering og nødvendig analyse.
  • Myriade av teknologier:  Utbredelse av verktøy i markedet har ført til mye forvirring rundt hva du skal bruke og når, det er flere teknologier som tilbyr lignende funksjoner og hevder å være bedre enn de andre.

Jeg vet at du vil tenke på forskjellige verktøy du kan bruke for å lage en fullstendig bevist Big Data-løsning. Vel, i mine kommende innlegg om Big Data, vil jeg dekke noen beste verktøy for å oppnå forskjellige oppgaver innen big data-arkitektur .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Kunstig intelligens er ikke i fremtiden, det er her akkurat i nåtiden I denne bloggen Les hvordan kunstig intelligens-applikasjoner har påvirket ulike sektorer.

DDOS-angrep: en kort oversikt

DDOS-angrep: en kort oversikt

Er du også et offer for DDOS-angrep og forvirret over forebyggingsmetodene? Les denne artikkelen for å løse spørsmålene dine.

Har du noen gang lurt på hvordan hackere tjener penger?

Har du noen gang lurt på hvordan hackere tjener penger?

Du har kanskje hørt at hackere tjener mye penger, men har du noen gang lurt på hvordan tjener de den slags penger? la oss diskutere.

Revolusjonerende oppfinnelser fra Google som vil gjøre livet ditt enkelt.

Revolusjonerende oppfinnelser fra Google som vil gjøre livet ditt enkelt.

Vil du se revolusjonerende oppfinnelser fra Google og hvordan disse oppfinnelsene forandret livet til alle mennesker i dag? Les deretter til bloggen for å se oppfinnelser fra Google.

Fredag ​​Essential: Hva skjedde med AI-drevne biler?

Fredag ​​Essential: Hva skjedde med AI-drevne biler?

Konseptet med selvkjørende biler som skal ut på veiene ved hjelp av kunstig intelligens er en drøm vi har hatt en stund nå. Men til tross for flere løfter, er de ingen steder å se. Les denne bloggen for å lære mer...

Teknologisk singularitet: en fjern fremtid for menneskelig sivilisasjon?

Teknologisk singularitet: en fjern fremtid for menneskelig sivilisasjon?

Ettersom vitenskapen utvikler seg raskt og tar over mye av innsatsen vår, øker også risikoen for å utsette oss for en uforklarlig singularitet. Les hva singularitet kan bety for oss.

Evolusjon av datalagring – infografikk

Evolusjon av datalagring – infografikk

Lagringsmetodene for dataene har vært i utvikling kan være siden fødselen av dataene. Denne bloggen dekker utviklingen av datalagring på grunnlag av en infografikk.

Funksjonaliteter til Big Data Reference Architecture Layers

Funksjonaliteter til Big Data Reference Architecture Layers

Les bloggen for å kjenne ulike lag i Big Data Architecture og deres funksjoner på den enkleste måten.

6 fantastiske fordeler ved å ha smarte hjemmeenheter i livene våre

6 fantastiske fordeler ved å ha smarte hjemmeenheter i livene våre

I denne digitaldrevne verden har smarthusenheter blitt en avgjørende del av livet. Her er noen fantastiske fordeler med smarthusenheter om hvordan de gjør livet vårt verdt å leve og enklere.

macOS Catalina 10.15.4 tilleggsoppdatering forårsaker flere problemer enn å løse

macOS Catalina 10.15.4 tilleggsoppdatering forårsaker flere problemer enn å løse

Nylig lanserte Apple macOS Catalina 10.15.4 en tilleggsoppdatering for å fikse problemer, men det ser ut til at oppdateringen forårsaker flere problemer som fører til muring av mac-maskiner. Les denne artikkelen for å lære mer