Funkcionalnosti slojev referenčne arhitekture velikih podatkov

Funkcionalnosti slojev referenčne arhitekture velikih podatkov

V moji zadnji objavi smo razpravljali o analizi poslovnega problema in osnovnih korakih za načrtovanje velike podatkovne arhitekture. Danes bom govoril o različnih slojih v arhitekturi velikih podatkov in njihovih funkcionalnostih.

Logične plasti referenčne arhitekture velikih podatkov

Glavna ideja za arhitekturo velikih podatkov je dokumentirati prave temelje arhitekture, infrastrukture in aplikacij. Posledično to podjetjem omogoča učinkovitejšo vsakodnevno uporabo velikih podatkov.

Ustvarijo ga oblikovalci/arhitekti velikih podatkov, preden fizično implementirajo rešitev. Ustvarjanje velike podatkovne arhitekture na splošno zahteva razumevanje podjetja/organizacije in njenih potreb po velikih podatkih. Običajno velike podatkovne arhitekture opisujejo komponente strojne in programske opreme, ki so potrebne za izpolnjevanje rešitve velikih podatkov. Dokumenti o arhitekturi velikih podatkov lahko opisujejo tudi protokole za souporabo podatkov, integracije aplikacij in informacijsko varnost.

Več informacij:  Vodnik za začetnike po analitiki velikih podatkov

Vključuje tudi medsebojno povezovanje in organiziranje obstoječih virov za zadovoljevanje potreb po velikih podatkih.

Logične plasti referenčne arhitekture so naslednje:

  • Identifikacija vira podatkov: vedeti, od kod izvirajo ti podatki.

Profiliranje vira je eden najpomembnejših korakov pri odločanju o arhitekturi ali velikih podatkih. Vključuje prepoznavanje različnih izvornih sistemov in njihovo kategorizacijo glede na njihovo naravo in vrsto.

Točke, ki jih je treba upoštevati pri profiliranju virov podatkov:

  1. Identificirajte notranje in zunanje sisteme virov.
  2. Visoka predpostavka za količino podatkov, prevzetih iz vsakega vira
  3. Določite mehanizem, ki se uporablja za pridobivanje podatkov – potisnite ali potegnite
  4. Določite vrsto vira podatkov – zbirka podatkov, datoteka, spletna storitev, tokovi itd.
  5. Določite vrsto podatkov – strukturirani, polstrukturirani ali nestrukturirani
  • Strategija vnosa podatkov in pridobivanje : Postopek za vnos podatkov v sistem.

Pri zaužitju podatkov gre za pridobivanje podatkov iz zgoraj omenjenih virov. Ti podatki se shranijo v shrambo in se nato preoblikujejo za nadaljnjo obdelavo na njej.

Točke, ki jih je treba upoštevati:

  1. Določite pogostost, s katero bi se podatki zaužili iz vsakega vira
  2. Ali je treba spremeniti semantiko podatkov?
  3. Ali je pred zaužitjem (predobdelava) potrebna kakšna potrditev ali preoblikovanje podatkov?
  4. Ločite vire podatkov glede na način zaužitja – paketno ali v realnem času
  • Shranjevanje podatkov : objekt, kjer se bodo veliki podatki dejansko shranili.

Človek bi moral biti sposoben shraniti velike količine podatkov katere koli vrste in bi moral biti sposoben obsegati glede na potrebe. Upoštevati moramo tudi število IOPS (vhodnih izhodnih operacij na sekundo), ki jih lahko zagotovi. Porazdeljeni datotečni sistem Hadoop je najpogosteje uporabljen okvir za shranjevanje v svetu velikih podatkov, drugi so shramba podatkov NoSQL – MongoDB, HBase, Cassandra itd.

Stvari, ki jih je treba upoštevati pri načrtovanju metodologije shranjevanja:

  1. Vrsta podatkov (zgodovinski ali inkrementalni)
  2. Oblika podatkov (strukturirana, polstrukturirana in nestrukturirana)
  3. Zahteve za stiskanje
  4. Pogostost vhodnih podatkov
  5. Vzorec poizvedbe za podatke
  6. Potrošniki podatkov
  • Obdelava podatkov : Orodja, ki zagotavljajo analizo velikih podatkov.

Večkrat se je povečala ne le količina shranjenih podatkov, temveč tudi obdelava.

Prej pogosto dostopni podatki so bili shranjeni v dinamičnih RAM-ih. Zdaj pa je zaradi velike količine shranjen na več diskih na številnih napravah, povezanih prek omrežja. Zato se namesto zbiranja kosov podatkov za obdelavo moduli za obdelavo prenesejo v velike podatke. Tako se znatno zmanjša omrežni V/I. Metodologijo obdelave poganjajo poslovne zahteve. Na podlagi SLA ga je mogoče razvrstiti v paketno, v realnem času ali hibridno.

  1. Paketna obdelava  – Paket zbira vhod za določen časovni interval in izvaja transformacije na njem po načrtovanem načinu. Nalaganje zgodovinskih podatkov je tipična paketna operacija
  2. Obdelava v realnem časuobdelava v realnem času vključuje izvajanje transformacij, ko so podatki pridobljeni.
  3. Hibridna obdelava – je kombinacija potreb po paketni obdelavi in ​​obdelavi v realnem času.
  • Poraba/uporaba podatkov : Uporabniki/storitve, ki uporabljajo analizirane podatke.

Ta plast porablja izhod, ki ga zagotavlja sloj obdelave. Različni uporabniki, kot so skrbnik, poslovni uporabniki, prodajalec, partnerji itd., lahko uporabljajo podatke v različnih oblikah. Izhod analize lahko porabi motor priporočil ali pa se na podlagi analize sprožijo poslovni procesi.

Različne oblike porabe podatkov so:

  1. Izvoz naborov podatkov lahko obstajajo zahteve za ustvarjanje nabora podatkov tretjih oseb. Nabore podatkov je mogoče ustvariti z izvozom panja ali neposredno iz HDFS.
  2. Poročanje in vizualizacija – Različno skeniranje orodij za poročanje in vizualizacijo se poveže s Hadoopom s povezljivostjo JDBC/ODBC v panj.
  3. Raziskovanje podatkov – Podatkovni znanstvenik lahko gradi modele in izvaja globoko raziskovanje v okolju peskovnika. Peskovnik je lahko ločena gruča (priporočeni pristop) ali ločena shema znotraj iste gruče, ki vsebuje podmnožico dejanskih podatkov.
  4. Adhoc poizvedovanje – Adhoc ali interaktivno poizvedovanje je mogoče podpreti z uporabo Hive, Impala ali spark SQL.

Preberite tudi:  Veliki podatki: nočna mora prihodnosti?

Funkcionalni sloji arhitekture velikih podatkov:

Lahko bi obstajal še en način definiranja arhitekture, to je z delitvijo funkcionalnosti. Toda kategorije funkcionalnosti bi lahko združili v logično plast referenčne arhitekture, zato je prednostna arhitektura tista, ki se izvaja z uporabo logičnih plasti.

Plastenje, ki temelji na funkcionalnosti, je spodaj:

  1. Viri podatkov:

V to kategorijo je treba našteti analizo vseh virov, iz katerih organizacija prejema podatke in ki bi lahko pomagali organizaciji pri sprejemanju njenih prihodnjih odločitev. Tukaj navedeni viri podatkov so ne glede na to, ali so podatki strukturirani, nestrukturirani ali polstrukturirani.

  1. Ekstrahiranje podatkov:

Preden lahko svoje podatke shranite, analizirate ali vizualizirate, jih morate imeti. Pri pridobivanju podatkov gre za to, da vzamemo nekaj, kar je nestrukturirano, kot je spletna stran, in ga pretvorimo v strukturirano tabelo. Ko ga imate strukturirano, lahko z njim manipulirate na vse vrste načinov, s pomočjo spodaj opisanih orodij, da najdete vpoglede.

  1. Shranjevanje podatkov:

Osnovna potreba pri delu z velikimi podatki je razmišljanje, kako te podatke shraniti. Del tega, kako so veliki podatki dobili razlikovanje kot "BIG", je to, da so tradicionalni sistemi postali preveč, da bi jih lahko obvladali. Dober ponudnik shranjevanja podatkov vam mora ponuditi infrastrukturo, na kateri lahko izvajate vsa druga analitična orodja, pa tudi prostor za shranjevanje in poizvedovanje vaših podatkov.

  1. Čiščenje podatkov:

Predpogoj, preden dejansko začnemo pridobivati ​​podatke za vpogled. Vedno je dobra praksa ustvariti čist, dobro strukturiran nabor podatkov. Nabori podatkov so lahko vseh oblik in velikosti, še posebej, če prihajajo iz spleta. Izberite orodje glede na vaše podatke.

  1. Podatkovno rudarjenje:

Podatkovno rudarjenje je proces odkrivanja vpogledov v bazi podatkov. Cilj podatkovnega rudarjenja je sprejemanje odločitev in napovedi na podlagi podatkov, ki jih imate pri roki. Izberite programsko opremo, ki vam omogoča najboljše napovedi za vse vrste podatkov in vam omogoča ustvarjanje lastnih algoritmov za rudarjenje podatkov.

  1. Analitika podatkov:

Medtem ko je podatkovno rudarjenje namenjeno prebiranju vaših podatkov v iskanju prej neprepoznanih vzorcev, je analiza podatkov razčlenjevanje teh podatkov in ocenjevanje vpliva teh vzorcev čez čas. Pri analitiki je zastavljanje določenih vprašanj in iskanje odgovorov v podatkih. Lahko celo postavljate vprašanja o tem, kaj se bo zgodilo v prihodnosti!

  1. Vizualizacija podatkov:

Vizualizacije so svetel in enostaven način za posredovanje zapletenih vpogledov v podatke. Najboljši del je, da večina od njih ne potrebuje kodiranja. Podjetja za vizualizacijo podatkov bodo poskrbela, da bodo vaši podatki zaživeli. Del izziva za vsakega podatkovnega znanstvenika je posredovanje vpogledov iz teh podatkov preostalemu delu vašega podjetja. Orodja bi vam lahko pomagala ustvariti grafikone, zemljevide in druge podobne grafike na podlagi vpogleda v podatke.

  1. Integracija podatkov:

Platforme za integracijo podatkov so lepilo med vsakim programom. Povezujejo različne sklepe orodij z drugo programsko opremo. Rezultate svojih orodij za vizualizacijo lahko delite neposredno na Facebooku prek teh orodij.

  1. Podatkovni jeziki:

V vaši podatkovni karieri se bodo zgodili časi, ko ga orodje preprosto ne bo zmanjšalo. Čeprav so današnja orodja vse močnejša in enostavnejša za uporabo, je včasih preprosto bolje, da jih kodirate sami. Obstajajo različni jeziki, ki vam pomagajo pri različnih vidikih, kot sta statistično računalništvo in grafika. Ti jeziki bi lahko delovali kot dodatek za podatkovno rudarjenje in statistično programsko opremo.

Funkcionalnosti slojev referenčne arhitekture velikih podatkov

Ključne stvari, ki si jih morate zapomniti pri načrtovanju velike podatkovne arhitekture, so:

  • Dinamika uporabe : Obstajajo številni scenariji, kot je prikazano v članku, ki jih je treba upoštevati pri načrtovanju arhitekture – oblika in pogostost podatkov, vrsta podatkov, vrsta obdelave in zahtevana analitika.
  • Nešteto tehnologij:  širjenje orodij na trgu je povzročilo veliko zmede glede tega, kaj uporabiti in kdaj, obstaja več tehnologij, ki ponujajo podobne funkcije in trdijo, da so boljše od drugih.

Vem, da bi razmišljali o različnih orodjih, ki bi jih uporabili za izdelavo popolne rešitve za velike podatke. No, v svojih prihodnjih objavah o velikih podatkih bi obravnaval nekaj najboljših orodij za doseganje različnih nalog v arhitekturi velikih podatkov .


Vzpon strojev: aplikacije AI v resničnem svetu

Vzpon strojev: aplikacije AI v resničnem svetu

Umetna inteligenca ni v prihodnosti, tukaj je prav v sedanjosti. V tem blogu preberite, kako so aplikacije umetne inteligence vplivale na različne sektorje.

DDOS napadi: kratek pregled

DDOS napadi: kratek pregled

Ste tudi vi žrtev DDOS napadov in ste zmedeni glede načinov preprečevanja? Preberite ta članek, če želite rešiti svoja vprašanja.

Ste se kdaj vprašali, kako hekerji zaslužijo denar?

Ste se kdaj vprašali, kako hekerji zaslužijo denar?

Morda ste že slišali, da hekerji zaslužijo veliko denarja, a ste se kdaj vprašali, kako zaslužijo takšen denar? razpravljajmo.

Revolucionarni Googlovi izumi, ki vam bodo olajšali življenje.

Revolucionarni Googlovi izumi, ki vam bodo olajšali življenje.

Ali želite videti revolucionarne izume Googla in kako so ti izumi danes spremenili življenje vsakega človeka? Nato preberite v blogu in si oglejte Googlove izume.

Friday Essential: Kaj se je zgodilo z avtomobili, ki jih poganja umetna inteligenca?

Friday Essential: Kaj se je zgodilo z avtomobili, ki jih poganja umetna inteligenca?

Koncept samovozečih avtomobilov, ki zapeljejo na ceste s pomočjo umetne inteligence, so sanje, ki jih imamo že nekaj časa. A kljub številnim obljubam jih ni nikjer. Preberite ta blog, če želite izvedeti več…

Tehnološka singularnost: oddaljena prihodnost človeške civilizacije?

Tehnološka singularnost: oddaljena prihodnost človeške civilizacije?

Ker se znanost hitro razvija in prevzame veliko naših prizadevanj, se povečuje tudi tveganje, da se podvržemo nerazložljivi singularnosti. Preberite, kaj bi za nas lahko pomenila singularnost.

Razvoj shranjevanja podatkov – Infografika

Razvoj shranjevanja podatkov – Infografika

Metode shranjevanja podatkov so se lahko razvijale od rojstva podatkov. Ta blog pokriva razvoj shranjevanja podatkov na podlagi infografike.

Funkcionalnosti slojev referenčne arhitekture velikih podatkov

Funkcionalnosti slojev referenčne arhitekture velikih podatkov

Preberite blog, če želite na najpreprostejši način spoznati različne plasti v arhitekturi velikih podatkov in njihove funkcionalnosti.

6 neverjetnih prednosti pametnih naprav za dom v našem življenju

6 neverjetnih prednosti pametnih naprav za dom v našem življenju

V tem digitalno vodenem svetu so pametne naprave za dom postale ključni del življenja. Tukaj je nekaj neverjetnih prednosti pametnih naprav za dom o tem, kako naredijo naše življenje vredno življenja in poenostavijo.

Posodobitev dodatka macOS Catalina 10.15.4 povzroča več težav kot jih rešuje

Posodobitev dodatka macOS Catalina 10.15.4 povzroča več težav kot jih rešuje

Pred kratkim je Apple izdal macOS Catalina 10.15.4 dopolnilno posodobitev za odpravo težav, vendar se zdi, da posodobitev povzroča več težav, ki vodijo do opečenja računalnikov Mac. Preberite ta članek, če želite izvedeti več