Funkcionality vrstiev referenčnej architektúry veľkých dát

Funkcionality vrstiev referenčnej architektúry veľkých dát

V mojom poslednom príspevku sme diskutovali o analýze obchodného problému a základných krokoch pri navrhovaní architektúry veľkých dát. Dnes budem hovoriť o rôznych vrstvách architektúry veľkých dát a ich funkcionalitách.

Logické vrstvy referenčnej architektúry veľkých dát

Za architektúrou veľkých dát je hlavnou myšlienkou zdokumentovať správny základ architektúry, infraštruktúry a aplikácií. V dôsledku toho to firmám umožňuje efektívnejšie využívať veľké dáta na každodennej báze.

Vytvárajú ho dizajnéri/architekti veľkých dát pred fyzickou implementáciou riešenia. Vytvorenie architektúry veľkých dát si vo všeobecnosti vyžaduje pochopenie podniku/organizácie a jej potrieb v oblasti veľkých dát. Architektúra veľkých dát zvyčajne načrtáva hardvérové ​​a softvérové ​​komponenty, ktoré sú potrebné na splnenie riešenia veľkých dát. Dokumenty architektúry veľkých údajov môžu tiež popisovať protokoly na zdieľanie údajov, integráciu aplikácií a informačnú bezpečnosť.

Ďalšie informácie:  Sprievodca pre začiatočníkov analýzou veľkých dát

Zahŕňa to aj prepojenie a organizáciu existujúcich zdrojov tak, aby slúžili potrebám veľkých dát.

Logické vrstvy referenčnej architektúry sú nasledovné:

  • Identifikácia zdroja údajov: Vedieť, odkiaľ tieto údaje pochádzajú.

Profilovanie zdroja je jedným z najdôležitejších krokov pri rozhodovaní o architektúre alebo veľkých dátach. Zahŕňa identifikáciu rôznych zdrojových systémov a ich kategorizáciu na základe ich povahy a typu.

Body, ktoré je potrebné zvážiť pri profilovaní zdrojov údajov:

  1. Identifikujte systémy interných a externých zdrojov.
  2. Predpoklad vysokej úrovne pre množstvo údajov prijatých z každého zdroja
  3. Identifikujte mechanizmus používaný na získanie údajov – push alebo pull
  4. Určite typ zdroja údajov – Databáza, Súbor, webová služba, streamy atď.
  5. Určite typ údajov – štruktúrované, pološtruktúrované alebo neštruktúrované
  • Stratégia a získavanie údajov : Proces vkladania údajov do systému.

Príjem údajov je o extrakcii údajov z vyššie uvedených zdrojov. Tieto údaje sa uložia do úložiska a následne sa v ňom transformujú na ďalšie spracovanie.

Body, ktoré treba zvážiť:

  1. Určite frekvenciu, s akou sa budú prijímať údaje z každého zdroja
  2. Je potrebné zmeniť sémantiku údajov?
  3. Vyžaduje sa pred prijatím nejaké overenie alebo transformácia údajov (predspracovanie)?
  4. Oddeľte zdroje údajov podľa spôsobu prijímania – dávkové alebo v reálnom čase
  • Dátové úložisko : Zariadenie, kde budú skutočne uložené veľké dáta.

Jeden by mal byť schopný ukladať veľké množstvo dát akéhokoľvek typu a mal by byť schopný škálovať podľa potreby. Mali by sme tiež zvážiť počet IOPS (vstupných výstupných operácií za sekundu), ktoré môže poskytnúť. Distribuovaný súborový systém Hadoop je najbežnejšie používaným úložným rámcom vo svete veľkých dát, ďalšími sú dátové sklady NoSQL – MongoDB, HBase, Cassandra atď.

Čo treba zvážiť pri plánovaní metodiky ukladania:

  1. Typ údajov (historické alebo prírastkové)
  2. Formát údajov (štruktúrované, pološtruktúrované a neštruktúrované)
  3. Požiadavky na kompresiu
  4. Frekvencia prichádzajúcich údajov
  5. Vzor dotazu na údaje
  6. Spotrebitelia údajov
  • Spracovanie údajov : Nástroje, ktoré poskytujú analýzu veľkých údajov.

Niekoľkonásobne vzrástlo nielen množstvo ukladaných údajov, ale aj ich spracovanie.

Predtým často používané údaje boli uložené v dynamických RAM. Teraz sa však kvôli veľkému objemu ukladá na viacero diskov na viacerých počítačoch pripojených cez sieť. Preto namiesto zhromažďovania častí údajov na spracovanie sa moduly spracovania prenesú do veľkých údajov. Tým sa výrazne zníži sieťový vstup/výstup. Metodológia spracovania sa riadi obchodnými požiadavkami. Môže byť kategorizovaný do Batch, real-time alebo Hybrid na základe SLA.

  1. Dávkové spracovanie  – Dávkové zbiera vstup počas určeného časového intervalu a spúšťa na ňom transformácie naplánovaným spôsobom. Načítanie historických údajov je typická dávková operácia
  2. Spracovanie v reálnom časeSpracovanie v reálnom čase zahŕňa spustenie transformácií pri získavaní údajov.
  3. Hybridné spracovanie – Ide o kombináciu dávkového spracovania a spracovania v reálnom čase.
  • Spotreba/využitie údajov : Používatelia/služby využívajúce analyzované údaje.

Táto vrstva spotrebúva výstup poskytovaný vrstvou spracovania. Rôzni používatelia ako správca, obchodní používatelia, predajca, partneri atď. môžu spotrebúvať údaje v rôznom formáte. Výstup analýzy môže byť spotrebovaný motorom odporúčaní alebo môžu byť na základe analýzy spustené obchodné procesy.

Rôzne formy spotreby údajov sú:

  1. Export dátových súborov môžu existovať požiadavky na generovanie dátových súborov tretích strán. Súbory údajov je možné generovať pomocou exportu úľa alebo priamo z HDFS.
  2. Hlásenie a vizualizácia – Rôzne nástroje na vytváranie prehľadov a vizualizácie sa pripájajú k Hadoop pomocou pripojenia JDBC/ODBC k podregistru.
  3. Prieskum dát – Dátový vedec môže vytvárať modely a vykonávať hĺbkový prieskum v prostredí sandbox. Sandbox môže byť samostatný klaster (odporúčaný prístup) alebo samostatná schéma v rámci toho istého klastra, ktorý obsahuje podmnožinu skutočných údajov.
  4. Adhoc dotazovanie – Adhoc alebo interaktívne dotazovanie môže byť podporované pomocou Hive, Impala alebo spark SQL.

Prečítajte si tiež:  Veľké dáta: Budúca nočná mora?

Funkčné vrstvy architektúry veľkých dát:

Môže existovať ešte jeden spôsob, ako definovať architektúru, tj prostredníctvom rozdelenia funkčnosti. Kategórie funkčnosti by však mohli byť zoskupené do logickej vrstvy referenčnej architektúry, takže preferovanou architektúrou je architektúra vytvorená pomocou logických vrstiev.

Vrstvenie založené na funkciách je nasledovné:

  1. Zdroje dát:

V tejto kategórii by mala byť uvedená analýza všetkých zdrojov, z ktorých organizácia získava údaje a ktoré by jej mohli pomôcť pri budúcich rozhodnutiach. Tu uvedené zdroje údajov sú bez ohľadu na to, či sú údaje štruktúrované, neštruktúrované alebo pološtruktúrované.

  1. Extrakcia dát:

Predtým, ako budete môcť ukladať, analyzovať alebo vizualizovať svoje údaje, musíte nejaké mať. Extrakcia údajov spočíva v tom, že vezmete niečo, čo je neštruktúrované, napríklad webovú stránku, a zmeníte to na štruktúrovanú tabuľku. Akonáhle to budete mať štruktúrované, môžete s ním manipulovať rôznymi spôsobmi pomocou nástrojov popísaných nižšie, aby ste našli prehľad.

  1. Úložisko dát:

Základnou nevyhnutnosťou pri práci s veľkými dátami je premýšľať, ako tieto dáta uložiť. Časť toho, ako sa Big Data dostali medzi „VEĽKÉ“, je to, že sa stalo príliš veľa, aby to tradičné systémy zvládli. Dobrý poskytovateľ dátového úložiska by vám mal ponúknuť infraštruktúru, na ktorej môžete spúšťať všetky vaše ďalšie analytické nástroje, ako aj miesto na ukladanie a dopytovanie vašich údajov.

  1. Čistenie dát:

Nevyhnutný krok predtým, ako skutočne začneme ťažiť údaje pre prehľady. Vždy je dobrým zvykom vytvoriť čistý, dobre štruktúrovaný súbor údajov. Súbory údajov môžu mať všetky tvary a veľkosti, najmä ak prichádzajú z webu. Vyberte si nástroj podľa vašich požiadaviek na údaje.

  1. Data mining:

Data mining je proces objavovania poznatkov v databáze. Cieľom dolovania údajov je robiť rozhodnutia a predpovede o údajoch, ktoré máte po ruke. Vyberte si softvér, ktorý vám poskytne najlepšie predpovede pre všetky typy údajov a umožní vám vytvoriť si vlastné algoritmy na ťažbu údajov.

  1. Analýza údajov:

Zatiaľ čo dolovanie údajov je o preosievaní vašich údajov pri hľadaní predtým nerozpoznaných vzorov, analýza údajov je o rozdelení týchto údajov a hodnotení vplyvu týchto vzorov v priebehu času. Analytics je o kladení konkrétnych otázok a hľadaní odpovedí v údajoch. Môžete dokonca klásť otázky o tom, čo sa stane v budúcnosti!

  1. Vizualizácia dát:

Vizualizácie predstavujú jasný a jednoduchý spôsob, ako sprostredkovať komplexné prehľady údajov. A najlepšie na tom je, že väčšina z nich nevyžaduje žiadne kódovanie. Spoločnosti zaoberajúce sa vizualizáciou dát oživia vaše dáta. Súčasťou výzvy pre každého dátového vedca je sprostredkovať poznatky z týchto údajov zvyšku vašej spoločnosti. Nástroje vám môžu pomôcť pri vytváraní grafov, máp a inej podobnej grafiky z vašich údajov.

  1. Integrácia údajov:

Lepidlom medzi každým programom sú platformy na integráciu údajov. Spájajú rôzne závery nástrojov s inými softvérmi. Prostredníctvom týchto nástrojov by ste mohli zdieľať výsledky svojich vizualizačných nástrojov priamo na Facebooku.

  1. Dátové jazyky:

Vo vašej dátovej kariére nastanú chvíle, keď to nástroj jednoducho nepreruší. Aj keď sú dnešné nástroje stále výkonnejšie a jednoduchšie na používanie, niekedy je lepšie si ich naprogramovať sami. Existujú rôzne jazyky, ktoré vám pomáhajú v rôznych aspektoch, ako sú štatistické výpočty a grafika. Tieto jazyky by mohli fungovať ako doplnok pre data mining a štatistické softvéry.

Funkcionality vrstiev referenčnej architektúry veľkých dát

Kľúčová vec, ktorú si treba zapamätať pri navrhovaní architektúry veľkých dát, sú:

  • Dynamika použitia : Existuje niekoľko scenárov, ako je znázornené v článku, ktoré je potrebné zvážiť pri navrhovaní architektúry – forma a frekvencia údajov, typ údajov, typ spracovania a požadovaná analýza.
  • Nespočetné množstvo technológií:  Šírenie nástrojov na trhu viedlo k mnohým zmätkom, pokiaľ ide o to, čo a kedy použiť, existuje viacero technológií, ktoré ponúkajú podobné funkcie a tvrdia, že sú lepšie ako ostatné.

Viem, že by ste premýšľali o rôznych nástrojoch, ktoré by ste použili na vytvorenie úplného dôkazu Big Data Solution. V mojich nadchádzajúcich príspevkoch o veľkých údajoch by som sa venoval niektorým najlepším nástrojom na dosiahnutie rôznych úloh v architektúre veľkých údajov .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Umelá inteligencia nie je v budúcnosti, je tu priamo v súčasnosti V tomto blogu si prečítajte, ako aplikácie umelej inteligencie ovplyvnili rôzne sektory.

Útoky DDOS: Stručný prehľad

Útoky DDOS: Stručný prehľad

Ste aj vy obeťou DDOS útokov a máte zmätok ohľadom metód prevencie? Ak chcete vyriešiť svoje otázky, prečítajte si tento článok.

Zaujímalo vás niekedy, ako hackeri zarábajú peniaze?

Zaujímalo vás niekedy, ako hackeri zarábajú peniaze?

Možno ste už počuli, že hackeri zarábajú veľa peňazí, ale premýšľali ste niekedy nad tým, ako môžu zarábať také peniaze? poďme diskutovať.

Revolučné vynálezy od spoločnosti Google, ktoré vám uľahčia život.

Revolučné vynálezy od spoločnosti Google, ktoré vám uľahčia život.

Chcete vidieť revolučné vynálezy od Google a ako tieto vynálezy zmenili život každého dnešného človeka? Potom si prečítajte na blogu a pozrite si vynálezy spoločnosti Google.

Piatok Essential: Čo sa stalo s autami poháňanými AI?

Piatok Essential: Čo sa stalo s autami poháňanými AI?

Koncept samoriadených áut vyraziť na cesty s pomocou umelej inteligencie je snom, ktorý máme už nejaký čas. Ale napriek niekoľkým prísľubom ich nikde nevidno. Prečítajte si tento blog a dozviete sa viac…

Technologická singularita: vzdialená budúcnosť ľudskej civilizácie?

Technologická singularita: vzdialená budúcnosť ľudskej civilizácie?

Ako sa veda vyvíja rýchlym tempom a preberá veľa nášho úsilia, zvyšuje sa aj riziko, že sa vystavíme nevysvetliteľnej singularite. Prečítajte si, čo pre nás môže znamenať singularita.

Vývoj ukladania dát – Infografika

Vývoj ukladania dát – Infografika

Spôsoby ukladania údajov sa môžu vyvíjať už od zrodu údajov. Tento blog sa zaoberá vývojom ukladania údajov na základe infografiky.

Funkcionality vrstiev referenčnej architektúry veľkých dát

Funkcionality vrstiev referenčnej architektúry veľkých dát

Prečítajte si blog, aby ste čo najjednoduchším spôsobom spoznali rôzne vrstvy architektúry veľkých dát a ich funkcie.

6 úžasných výhod toho, že máme v živote inteligentné domáce zariadenia

6 úžasných výhod toho, že máme v živote inteligentné domáce zariadenia

V tomto digitálnom svete sa inteligentné domáce zariadenia stali kľúčovou súčasťou života. Tu je niekoľko úžasných výhod inteligentných domácich zariadení o tom, ako robia náš život, ktorý stojí za to žiť, a ktorý zjednodušujú.

Aktualizácia doplnku macOS Catalina 10.15.4 spôsobuje viac problémov, ako ich rieši

Aktualizácia doplnku macOS Catalina 10.15.4 spôsobuje viac problémov, ako ich rieši

Spoločnosť Apple nedávno vydala doplnkovú aktualizáciu macOS Catalina 10.15.4 na opravu problémov, ale zdá sa, že táto aktualizácia spôsobuje ďalšie problémy, ktoré vedú k blokovaniu počítačov Mac. Prečítajte si tento článok a dozviete sa viac