Funkcionality vrstev referenční architektury velkých dat

Funkcionality vrstev referenční architektury velkých dat

V mém posledním příspěvku jsme diskutovali o analýze obchodního problému a základních krocích k návrhu architektury velkých dat. Dnes budu hovořit o různých vrstvách v architektuře velkých dat a jejich funkcích.

Logické vrstvy referenční architektury velkých dat

Za architekturou velkých dat je hlavní myšlenkou dokumentovat správný základ architektury, infrastruktury a aplikací. Následně to podnikům umožňuje efektivněji využívat velká data na každodenní bázi.

Vytvářejí jej návrháři/architekti velkých dat před fyzickou implementací řešení. Vytváření architektury velkých dat obecně vyžaduje pochopení podnikání/organizace a jejích potřeb velkých dat. Architektury velkých dat obvykle nastiňují hardwarové a softwarové komponenty, které jsou nezbytné pro naplnění řešení velkých dat. Dokumenty architektury velkých dat mohou také popisovat protokoly pro sdílení dat, integraci aplikací a zabezpečení informací.

Další informace:  Průvodce pro začátečníky analýzou velkých dat

Znamená to také propojení a organizaci existujících zdrojů tak, aby sloužily potřebám velkých dat.

Logické vrstvy referenční architektury jsou následující:

  • Identifikace zdroje dat: Vědět, odkud tato data pocházejí.

Profilování zdroje je jedním z nejdůležitějších kroků při rozhodování o architektuře nebo velkých datech. Zahrnuje identifikaci různých zdrojových systémů a jejich kategorizaci na základě jejich povahy a typu.

Body, které je třeba vzít v úvahu při profilování zdrojů dat:

  1. Identifikujte systémy interních a externích zdrojů.
  2. Předpoklad vysoké úrovně pro množství dat přijatých z každého zdroje
  3. Identifikujte mechanismus používaný k získávání dat – push nebo pull
  4. Určete typ zdroje dat – Databáze, Soubor, webová služba, streamy atd.
  5. Určete typ dat – strukturovaná, polostrukturovaná nebo nestrukturovaná
  • Strategie a získávání dat : Proces vkládání dat do systému.

Při přijímání dat jde především o extrakci dat z výše uvedených zdrojů. Tato data jsou uložena v úložišti a poté jsou na něm transformována pro další zpracování.

Body ke zvážení:

  1. Určete frekvenci, s jakou budou data z každého zdroje přijímána
  2. Je potřeba změnit sémantiku dat?
  3. Vyžaduje se před zpracováním nějaká validace nebo transformace dat (předzpracování)?
  4. Oddělte zdroje dat podle způsobu příjmu – dávkové nebo v reálném čase
  • Data Storage : Zařízení, kde budou skutečně uložena velká data.

Člověk by měl být schopen ukládat velké množství dat jakéhokoli typu a měl by být schopen škálovat podle potřeby. Měli bychom také zvážit počet IOPS (vstupních výstupních operací za sekundu), které může poskytnout. Distribuovaný souborový systém Hadoop je nejčastěji používaným storage frameworkem ve světě Big Data, dalšími jsou datová úložiště NoSQL – MongoDB, HBase, Cassandra atd.

Co je třeba vzít v úvahu při plánování metodologie úložiště:

  1. Typ dat (historická nebo přírůstková)
  2. Formát dat (strukturovaný, polostrukturovaný a nestrukturovaný)
  3. Požadavky na kompresi
  4. Frekvence příchozích dat
  5. Vzor dotazu na data
  6. Spotřebitelé dat
  • Zpracování dat : Nástroje, které poskytují analýzu velkých dat.

Mnohonásobně se zvýšilo nejen množství ukládaných dat, ale také jejich zpracování.

Dříve často používaná data byla uložena v dynamických RAM. Nyní je však kvůli velkému objemu uložen na více discích na řadě počítačů připojených přes síť. Proto místo shromažďování datových bloků pro zpracování jsou moduly zpracování přeneseny do velkých dat. Výrazně tak snižuje I/O sítě. Metodika zpracování se řídí obchodními požadavky. Na základě SLA může být rozdělen do kategorií Batch, Real-time nebo Hybrid.

  1. Dávkové zpracování  – Dávkové sbírá vstup po zadaný časový interval a spouští na něm transformace naplánovaným způsobem. Načítání historických dat je typická dávková operace
  2. Zpracování v reálném časeZpracování v reálném čase zahrnuje provádění transformací při získávání dat.
  3. Hybridní zpracování – Jde o kombinaci požadavků na zpracování v dávkách i v reálném čase.
  • Spotřeba/využívání dat : Uživatelé/služby využívající analyzovaná data.

Tato vrstva spotřebovává výstup poskytovaný vrstvou zpracování. Různí uživatelé, jako je správce, obchodní uživatelé, dodavatel, partneři atd. mohou využívat data v různém formátu. Výstup analýzy může být spotřebován motorem doporučení nebo mohou být na základě analýzy spuštěny obchodní procesy.

Různé formy spotřeby dat jsou:

  1. Export datových sad Mohou existovat požadavky na generování datových sad třetích stran. Datové sady lze generovat pomocí exportu úlu nebo přímo z HDFS.
  2. Hlášení a vizualizace – Různé nástroje pro vytváření sestav a vizualizace se připojují k Hadoopu pomocí připojení JDBC/ODBC k úlu.
  3. Zkoumání dat – Datový vědec může vytvářet modely a provádět hluboký průzkum v prostředí sandbox. Sandbox může být samostatný cluster (doporučený přístup) nebo samostatné schéma v rámci stejného clusteru, který obsahuje podmnožinu skutečných dat.
  4. Adhoc dotazování – Adhoc nebo interaktivní dotazování lze podporovat pomocí Hive, Impala nebo spark SQL.

Čtěte také:  Velká data: Budoucí noční můra?

Funkční vrstvy architektury velkých dat:

Mohl by existovat ještě jeden způsob, jak definovat architekturu, tj. prostřednictvím rozdělení funkčnosti. Ale kategorie funkčnosti by mohly být seskupeny do logické vrstvy referenční architektury, takže preferovanou architekturou je architektura vytvořená pomocí logických vrstev.

Vrstvení založené na funkcích je následující:

  1. Zdroje dat:

V této kategorii by měla být uvedena analýza všech zdrojů, ze kterých organizace získává data a které by mohly organizaci pomoci při budoucích rozhodnutích. Zde uvedené zdroje dat jsou bez ohledu na to, zda se jedná o data strukturovaná, nestrukturovaná nebo polostrukturovaná.

  1. Extrakce dat:

Než budete moci ukládat, analyzovat nebo vizualizovat svá data, musíte nějaká mít. Extrakce dat spočívá v tom, že vezmete něco, co je nestrukturované, jako je webová stránka, a přeměníte to na strukturovanou tabulku. Jakmile jej budete mít strukturovaný, můžete s ním manipulovat nejrůznějšími způsoby pomocí níže popsaných nástrojů, abyste nalezli přehled.

  1. Datové úložiště:

Základní nutností při práci s velkými daty je přemýšlet, jak tato data uložit. Část toho, jak velká data získala označení „VELKÁ“ je to, že se s nimi stalo příliš mnoho, než aby je zvládaly tradiční systémy. Dobrý poskytovatel datových úložišť by vám měl nabídnout infrastrukturu, na které můžete provozovat všechny vaše další analytické nástroje, a také místo pro ukládání a dotazování vašich dat.

  1. Čištění dat:

Nezbytný krok, než skutečně začneme těžit data pro statistiky. Vždy je dobrým zvykem vytvořit čistý, dobře strukturovaný soubor dat. Soubory dat mohou mít všechny tvary a velikosti, zejména když přicházejí z webu. Vyberte si nástroj podle vašich požadavků na data.

  1. Dolování dat:

Data mining je proces objevování poznatků v rámci databáze. Cílem data miningu je činit rozhodnutí a předpovědi na datech, která máte po ruce. Vyberte si software, který vám poskytne nejlepší předpovědi pro všechny typy dat a umožní vám vytvořit si vlastní algoritmy pro těžbu dat.

  1. Analýza dat:

Zatímco dolování dat je o prosévání vašich dat při hledání dříve nerozpoznaných vzorů, analýza dat je o rozdělení těchto dat a posouzení dopadu těchto vzorů v průběhu času. Analytics je o kladení konkrétních otázek a hledání odpovědí v datech. Můžete se dokonce ptát na to, co se stane v budoucnu!

  1. Vizualizace dat:

Vizualizace představují jasný a snadný způsob, jak zprostředkovat komplexní pohled na data. A nejlepší na tom je, že většina z nich nevyžaduje žádné kódování. Společnosti zabývající se vizualizací dat oživí vaše data. Součástí výzvy pro každého datového vědce je předat poznatky z těchto dat zbytku vaší společnosti. Nástroje vám mohou pomoci vytvořit grafy, mapy a další podobné grafiky z vašich datových přehledů.

  1. Integrace dat:

Datové integrační platformy jsou tmelem mezi každým programem. Spojují různé závěry nástrojů s jinými programy. Prostřednictvím těchto nástrojů můžete sdílet výsledky svých vizualizačních nástrojů přímo na Facebooku.

  1. Datové jazyky:

Ve vaší datové kariéře nastanou chvíle, kdy to nějaký nástroj prostě nezvládne. Zatímco dnešní nástroje jsou stále výkonnější a snáze se používají, někdy je prostě lepší je naprogramovat sami. Existují různé jazyky, které vám pomáhají v různých aspektech, jako jsou statistické výpočty a grafika. Tyto jazyky by mohly fungovat jako doplněk pro data mining a statistický software.

Funkcionality vrstev referenční architektury velkých dat

Klíčová věc, kterou je třeba pamatovat při navrhování architektury Big Data Architecture, jsou:

  • Dynamika použití : Existuje řada scénářů, jak je ilustrováno v článku, které je třeba vzít v úvahu při navrhování architektury – forma a frekvence dat, typ dat, typ zpracování a požadovaná analytika.
  • Nesčetné množství technologií:  Šíření nástrojů na trhu vedlo k mnoha nejasnostem ohledně toho, co a kdy použít, existuje mnoho technologií, které nabízejí podobné funkce a tvrdí, že jsou lepší než ostatní.

Vím, že byste přemýšleli o různých nástrojích, které byste mohli použít k vytvoření úplného důkazu Big Data Solution. No, ve svých nadcházejících příspěvcích o velkých datech bych pokryl některé nejlepší nástroje k dosažení různých úkolů v architektuře velkých dat .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Umělá inteligence není v budoucnosti, je zde přímo v současnosti V tomto blogu si přečtěte, jak aplikace umělé inteligence ovlivnily různé sektory.

Útoky DDOS: Stručný přehled

Útoky DDOS: Stručný přehled

Jste také obětí DDOS útoků a nemáte jasno v metodách prevence? Chcete-li vyřešit své dotazy, přečtěte si tento článek.

Přemýšleli jste někdy, jak hackeři vydělávají peníze?

Přemýšleli jste někdy, jak hackeři vydělávají peníze?

Možná jste slyšeli, že hackeři vydělávají spoustu peněz, ale napadlo vás někdy, jak takové peníze vydělávají? Pojďme diskutovat.

Revoluční vynálezy od Googlu, které vám usnadní život.

Revoluční vynálezy od Googlu, které vám usnadní život.

Chcete vidět revoluční vynálezy Google a jak tyto vynálezy změnily život každého dnešního člověka? Pak si přečtěte na blogu a podívejte se na vynálezy od Googlu.

Friday Essential: Co se stalo s auty řízenými umělou inteligencí?

Friday Essential: Co se stalo s auty řízenými umělou inteligencí?

Koncept aut s vlastním pohonem, která vyrazí na silnice s pomocí umělé inteligence, je snem, který už nějakou dobu máme. Ale přes několik slibů nejsou nikde vidět. Přečtěte si tento blog a dozvíte se více…

Technologická singularita: vzdálená budoucnost lidské civilizace?

Technologická singularita: vzdálená budoucnost lidské civilizace?

Jak se věda vyvíjí rychlým tempem a přebírá mnoho našeho úsilí, stoupá také riziko, že se vystavíme nevysvětlitelné singularitě. Přečtěte si, co pro nás může znamenat singularita.

Evoluce ukládání dat – Infografika

Evoluce ukládání dat – Infografika

Způsoby ukládání dat se mohou vyvíjet od narození dat. Tento blog se zabývá vývojem ukládání dat na základě infografiky.

Funkcionality vrstev referenční architektury velkých dat

Funkcionality vrstev referenční architektury velkých dat

Přečtěte si blog, abyste co nejjednodušším způsobem poznali různé vrstvy v architektuře velkých dat a jejich funkce.

6 úžasných výhod toho, že máme v životě zařízení pro chytrou domácnost

6 úžasných výhod toho, že máme v životě zařízení pro chytrou domácnost

V tomto digitálním světě se chytrá domácí zařízení stala klíčovou součástí života. Zde je několik úžasných výhod chytrých domácích zařízení o tom, jak náš život stojí za to žít a zjednodušit jej.

Aktualizace doplňku macOS Catalina 10.15.4 způsobuje více problémů než řešení

Aktualizace doplňku macOS Catalina 10.15.4 způsobuje více problémů než řešení

Apple nedávno vydal doplňkovou aktualizaci macOS Catalina 10.15.4, která opravuje problémy, ale zdá se, že aktualizace způsobuje další problémy, které vedou k zablokování počítačů mac. Přečtěte si tento článek a dozvíte se více