A Big Data Reference Architecture Layerek funkciói

A Big Data Reference Architecture Layerek funkciói

Legutóbbi bejegyzésemben az üzleti probléma elemzéséről és a Big Data Architecture tervezésének alapvető lépéseiről beszélgettünk. Ma a Big Data Architecture különböző rétegeiről és azok funkcióiról fogok beszélni.

A Big Data referenciaarchitektúra logikai rétegei

A big data architektúra mögött az alapötlet az architektúra, az infrastruktúra és az alkalmazások megfelelő alapjainak dokumentálása. Következésképpen ez lehetővé teszi a vállalkozások számára, hogy a mindennapi életben hatékonyabban használják fel a big data-okat.

Big data tervezők/építészek hozzák létre a megoldás fizikai megvalósítása előtt. A big data architektúra létrehozásához általában meg kell érteni az üzletet/szervezetet és a big data igényeit. A big data architektúrák jellemzően felvázolják azokat a hardver- és szoftverkomponenseket, amelyek szükségesek a big data megoldás teljesítéséhez. A Big Data architektúra dokumentumok leírhatják az adatmegosztási, alkalmazásintegrációs és információbiztonsági protokollokat is.

További információ:  Útmutató kezdőknek a Big Data Analyticshez

Ez magában foglalja a meglévő erőforrások összekapcsolását és rendszerezését is a nagy adatszükségletek kiszolgálása érdekében.

A referencia architektúra logikai rétegei a következők:

  • Adatforrás azonosítása: Az adatok forrásának ismerete.

A forrásprofilozás az egyik legfontosabb lépés az architektúra vagy a big data eldöntésében. Ez magában foglalja a különböző forrásrendszerek azonosítását és kategorizálását természetük és típusuk alapján.

Az adatforrások profilalkotása során figyelembe veendő szempontok:

  1. A belső és külső forrásrendszerek azonosítása.
  2. Magas szintű feltételezés az egyes forrásokból bevitt adatok mennyiségére vonatkozóan
  3. Azonosítsa az adatszerzéshez használt mechanizmust – push vagy pull
  4. Határozza meg az adatforrás típusát – adatbázis, fájl, webszolgáltatás, adatfolyamok stb.
  5. Határozza meg az adatok típusát – strukturált, félig strukturált vagy strukturálatlan
  • Adatbeviteli stratégia és adatgyűjtés : Az adatok rendszerbe történő bevitelének folyamata.

Az adatfelvétel az adatok fent említett forrásokból való kinyerését jelenti. Ezeket az adatokat a tárolóban tároljuk, majd ezután transzformáljuk további feldolgozás céljából.

Figyelembe veendő pontok:

  1. Határozza meg az egyes forrásokból származó adatok bevitelének gyakoriságát
  2. Szükség van-e az adatszemantika módosítására?
  3. Szükség van-e bármilyen adatellenőrzésre vagy átalakításra a feldolgozás előtt (előfeldolgozás)?
  4. Az adatforrások elkülönítése a feldolgozás módja alapján – kötegelt vagy valós idejű
  • Adattárolás : Az a létesítmény, ahol a nagy adatokat ténylegesen tárolják.

Bármilyen típusú nagy mennyiségű adat tárolására képesnek kell lennie, és szükség szerint méretezhetőnek kell lennie. Azt is figyelembe kell vennünk, hogy hány IOPS-t (Input output operations per second) tud biztosítani. A Hadoop elosztott fájlrendszer a leggyakrabban használt tárolási keretrendszer a Big Data világában, mások a NoSQL adattárak – MongoDB, HBase, Cassandra stb.

A tárolási módszer tervezésénél figyelembe kell venni:

  1. Adattípus (előzményes vagy növekményes)
  2. Adatformátum (strukturált, félig strukturált és strukturálatlan)
  3. Tömörítési követelmények
  4. A bejövő adatok gyakorisága
  5. Lekérdezési minta az adatokon
  6. Az adatok fogyasztói
  • Adatfeldolgozás : Eszközök, amelyek nagy adatok elemzését biztosítják.

Nemcsak a tárolt adatok mennyisége, hanem a feldolgozás is többszörösére nőtt.

A korábban gyakran használt adatokat dinamikus RAM-okban tárolták. Most azonban több lemezen tárolják számos, hálózaton keresztül csatlakoztatott gépen a puszta mennyiség miatt. Ezért ahelyett, hogy adatdarabokat gyűjtenek össze a feldolgozáshoz, a feldolgozási modulokat a nagy adatokhoz veszik át. Így jelentősen csökken a hálózati I/O. A feldolgozási módszert az üzleti követelmények vezérlik. Az SLA alapján kötegelt, valós idejű vagy hibrid kategóriába sorolható.

  1. Kötegelt feldolgozás  – A kötegelt bemenet meghatározott ideig gyűjti össze, és ütemezett módon átalakításokat hajt végre rajta. Az előzményadatok betöltése tipikus kötegelt művelet
  2. Valós idejű feldolgozás – A valós idejű feldolgozás magában foglalja az átalakítások futtatását az adatok beszerzésekor.
  3. Hibrid feldolgozás – A kötegelt és a valós idejű feldolgozási igények kombinációja.
  • Adatfelhasználás/-felhasználás : Az elemzett adatokat hasznosító felhasználók/szolgáltatások.

Ez a réteg a feldolgozó réteg által biztosított kimenetet fogyasztja. Különböző felhasználók, például rendszergazda, üzleti felhasználók, szállító, partnerek stb., különböző formátumban fogyaszthatnak adatokat. Az elemzés kimenetét az ajánlómotor felhasználhatja, vagy az elemzés alapján üzleti folyamatokat indíthat el.

Az adatfelhasználás különböző formái:

  1. Adatkészletek exportálása Követelmények lehetnek a harmadik féltől származó adatkészletek létrehozásához. Az adatkészletek hive exporttal vagy közvetlenül HDFS-ből hozhatók létre.
  2. Jelentéskészítés és megjelenítés – Különféle jelentéskészítő és vizualizációs eszközök vizsgálata csatlakozik a Hadoophoz JDBC/ODBC kapcsolattal a kaptárhoz.
  3. Adatok feltárása – Az adatkutató modelleket építhet és mélyreható feltárásokat végezhet homokozó környezetben. A Sandbox lehet egy külön fürt (ajánlott megközelítés), vagy egy külön séma ugyanazon a fürtön belül, amely a tényleges adatok részhalmazát tartalmazza.
  4. Adhoc lekérdezés – Adhoc vagy interaktív lekérdezés Hive, Impala vagy spark SQL használatával támogatható.

Olvassa el még:  Big Data: A jövő rémálma?

A Big Data architektúra funkcionális rétegei:

Lehetne még egy módja az architektúra meghatározásának, például a funkcionalitás felosztáson keresztül. De a funkcionalitási kategóriák csoportosíthatók a referenciaarchitektúra logikai rétegébe, így az előnyben részesített architektúra logikai rétegekkel történik.

A funkciókon alapuló rétegezés a következő:

  1. Adatforrások:

Ebbe a kategóriába kell sorolni mindazon források elemzését, ahonnan egy szervezet adatokat kap, és amelyek segíthetik a szervezetet a jövőbeni döntések meghozatalában. Az itt felsorolt ​​adatforrások függetlenek attól, hogy az adatok strukturáltak, strukturálatlanok vagy félig strukturáltak.

  1. Adatkinyerés:

Mielőtt tárolná, elemezhetné vagy vizualizálná adatait, rendelkeznie kell valamennyivel. Az adatkinyerés arról szól, hogy veszünk valami strukturálatlant, például egy weboldalt, és strukturált táblázattá alakítjuk. Miután felépítette, az alábbiakban ismertetett eszközök segítségével sokféle módon manipulálhatja, hogy betekintést nyerjen.

  1. Adattárolás:

A nagy adatokkal való munka során alapvető szükséglet, hogy gondolkodjunk, hogyan tároljuk ezeket az adatokat. A Big Data „NAGY” megkülönböztetésének része az, hogy túl sok lett ahhoz, hogy a hagyományos rendszerek kezelni tudják. Egy jó adattárolási szolgáltatónak olyan infrastruktúrát kell kínálnia, amelyen az összes többi elemzőeszközt futtathatja, valamint helyet kell biztosítania az adatok tárolására és lekérdezésére.

  1. Adattisztítás:

Előzetesen szükséges lépés, mielőtt ténylegesen elkezdjük az adatok bányászatát a betekintéshez. Mindig célszerű tiszta, jól strukturált adatkészletet létrehozni. Az adatkészletek bármilyen formában és méretben létezhetnek, különösen, ha a webről származnak. Válasszon eszközt adatigényének megfelelően.

  1. Adatbányászat:

Az adatbányászat az adatbázison belüli betekintések felfedezésének folyamata. Az adatbányászat célja döntések meghozatala és előrejelzések meghozatala a rendelkezésére álló adatok alapján. Válasszon olyan szoftvert, amely a legjobb előrejelzéseket adja minden adattípushoz, és lehetővé teszi saját algoritmusok létrehozását az adatok bányászatához.

  1. Adatelemzés:

Míg az adatbányászat az adatok átszűréséről szól a korábban fel nem ismert minták keresése érdekében, az adatelemzés az adatok lebontásáról és a minták hatásának időnkénti felméréséről szól. Az Analytics konkrét kérdéseket tesz fel, és az adatokban keresi a válaszokat. Akár kérdéseket is feltehetsz, hogy mi lesz a jövőben!

  1. Adatvizualizáció:

A vizualizációk világos és egyszerű módot jelentenek az összetett adatok közvetítésére. És a legjobb az egészben az, hogy legtöbbjük nem igényel kódolást. Az adatvizualizációs cégek életre keltik az Ön adatait. Bármely adattudós számára a kihívás része, hogy az adatokból származó betekintést átadja a vállalat többi tagjának. Az eszközök segíthetnek diagramok, térképek és más hasonló grafikák létrehozásában az adatok betekintéséből.

  1. Adatintegráció:

Az adatintegrációs platformok jelentik a ragasztót az egyes programok között. Összekötik az eszközök különböző következtetéseit más szoftverekkel. Ezeken az eszközökön keresztül megoszthatja vizualizációs eszközeinek eredményeit közvetlenül a Facebookon.

  1. Adatnyelvek:

Az adatkarrierje során előfordulhatnak olyan időszakok, amikor egy eszköz egyszerűen nem vágja le. Míg a mai eszközök egyre erősebbek és könnyebben használhatók, néha jobb, ha saját kezűleg kódoljuk. Különböző nyelvek segítenek különböző területeken, például a statisztikai számítástechnikában és a grafikában. Ezek a nyelvek kiegészíthetik az adatbányászati ​​és statisztikai szoftvereket.

A Big Data Reference Architecture Layerek funkciói

A Big Data Architecture tervezésénél a következőkre kell emlékezni:

  • Használat dinamikája : A cikkben bemutatottak szerint számos forgatókönyvet kell figyelembe venni az architektúra tervezésekor – az adatok formája és gyakorisága, az adatok típusa, a feldolgozás típusa és az elemzések szükségessége.
  • Számtalan technológia:  Az eszközök elterjedése a piacon nagy zűrzavarhoz vezetett azzal kapcsolatban, hogy mit és mikor használjunk, számos technológia kínál hasonló funkciókat, és azt állítja, hogy jobb a többinél.

Tudom, hogy különféle eszközökre gondolna, amelyek segítségével teljes körűen bizonyíthat Big Data megoldást. Nos, a Big Data-ról szóló közelgő bejegyzéseimben néhány legjobb eszközt ismertetek a big data architektúra különböző feladatainak megvalósítására .


A gépek felemelkedése: Az AI valós világbeli alkalmazásai

A gépek felemelkedése: Az AI valós világbeli alkalmazásai

A mesterséges intelligencia nem a jövőben, hanem itt a jelenben. Ebben a blogban Olvassa el, hogyan hatott a mesterséges intelligencia alkalmazások különböző ágazatokra.

DDOS támadások: Rövid áttekintés

DDOS támadások: Rövid áttekintés

Ön is DDOS támadások áldozata, és tanácstalan a megelőzési módszereket illetően? Olvassa el ezt a cikket a kérdések megoldásához.

Gondolkozott már azon, hogyan keresnek pénzt a hackerek?

Gondolkozott már azon, hogyan keresnek pénzt a hackerek?

Talán hallottál már arról, hogy a hackerek sok pénzt keresnek, de elgondolkodtál már azon, hogyan kereshetnek ennyi pénzt? beszéljük meg.

A Google forradalmi találmányai, amelyek megkönnyítik az életét.

A Google forradalmi találmányai, amelyek megkönnyítik az életét.

Szeretné látni a Google forradalmi találmányait, és azt, hogy ezek a találmányok hogyan változtatták meg minden mai ember életét? Ezután olvassa el a blogot, és nézze meg a Google találmányait.

Essential péntek: Mi történt az AI-vezérelt autókkal?

Essential péntek: Mi történt az AI-vezérelt autókkal?

Az önvezető autók koncepciója, hogy mesterséges intelligencia segítségével kerüljenek az utakra, már egy ideje álmunk. De számos ígéret ellenére sehol sem látszanak. Olvassa el ezt a blogot, hogy többet megtudjon…

Technológiai szingularitás: az emberi civilizáció távoli jövője?

Technológiai szingularitás: az emberi civilizáció távoli jövője?

Ahogy a tudomány gyors ütemben fejlődik, átveszi erőfeszítéseink nagy részét, megnő annak a kockázata is, hogy alávetjük magunkat egy megmagyarázhatatlan szingularitásnak. Olvassa el, mit jelenthet számunkra a szingularitás.

Az adattárolás fejlődése – Infografika

Az adattárolás fejlődése – Infografika

Az adatok tárolási módjai az Adatok születése óta alakulhatnak. Ez a blog egy infografika alapján mutatja be az adattárolás fejlődését.

A Big Data Reference Architecture Layerek funkciói

A Big Data Reference Architecture Layerek funkciói

Olvassa el a blogot, hogy a legegyszerűbb módon ismerje meg a Big Data Architecture különböző rétegeit és azok funkcióit.

Az okosotthoni eszközök 6 lenyűgöző előnye az életünkben

Az okosotthoni eszközök 6 lenyűgöző előnye az életünkben

Ebben a digitálisan vezérelt világban az intelligens otthoni eszközök az élet döntő részévé váltak. Íme az intelligens otthoni eszközök néhány elképesztő előnye, hogyan teszik életünket érdemessé és egyszerűbbé.

A macOS Catalina 10.15.4 kiegészítés frissítése több problémát okoz, mint a megoldás

A macOS Catalina 10.15.4 kiegészítés frissítése több problémát okoz, mint a megoldás

Az Apple a közelmúltban kiadott egy kiegészítést a macOS Catalina 10.15.4-hez a problémák megoldására, de úgy tűnik, hogy a frissítés több problémát okoz, ami a Mac gépek blokkolásához vezet. További információért olvassa el ezt a cikket