Virkni Big Data Reference Architecture Layers

Virkni Big Data Reference Architecture Layers

Í síðustu færslu minni ræddum við um að greina viðskiptavandann og grunnskref til að hanna Big Data Architecture. Í dag ætla ég að tala um mismunandi lög í Big Data Architecture og virkni þeirra.

Rökrétt lög af tilvísunararkitektúr fyrir stór gögn

Á bak við stóra gagnaarkitektúr er kjarnahugmyndin að skjalfesta réttan grunn arkitektúrs, innviða og forrita. Þar af leiðandi gerir þetta fyrirtækjum kleift að nota stór gögn á skilvirkari hátt á hverjum degi.

Það er búið til af stórgagnahönnuðum/arkitektum áður en lausn er útfærð líkamlega. Að búa til stórgagnaarkitektúr krefst almennt skilnings á fyrirtækinu/stofnuninni og stórgagnaþörf þess. Venjulega, stór gagnaarkitektúr útlistar þá vélbúnaðar- og hugbúnaðaríhluti sem eru nauðsynlegir til að uppfylla stórgagnalausnir. Stór gagnaarkitektúrskjöl geta einnig lýst samskiptareglum fyrir gagnadeilingu, samþættingu forrita og upplýsingaöryggi.

Frekari upplýsingar:  Byrjendaleiðbeiningar um Big Data Analytics

Það felur einnig í sér að samtengja og skipuleggja núverandi auðlindir til að þjóna þörfum stórra gagna.

Rökrétt lög viðmiðunararkitektúrsins eru eins og hér að neðan:

  • Auðkenning gagnagjafa: Að vita hvaðan þessi gögn eru fengin.

Upprunasnið er eitt mikilvægasta skrefið við að ákveða arkitektúr eða stór gögn. Það felur í sér að greina mismunandi heimildakerfi og flokka þau út frá eðli þeirra og gerð.

Atriði sem þarf að hafa í huga þegar gagnauppsprettur eru teknar upp:

  1. Þekkja innri og ytri heimildakerfi.
  2. Forsenda á háu stigi fyrir magn gagna sem tekið er inn frá hverjum uppruna
  3. Þekkja vélbúnað sem notaður er til að fá gögn - ýttu eða dragðu
  4. Ákvarða tegund gagnagjafa - Gagnagrunnur, skrá, vefþjónusta, straumar osfrv.
  5. Ákvarða tegund gagna - skipulögð, hálfuppbyggð eða óskipulögð
  • Stefna og öflun gagnainntöku : Ferli til að setja gögn inn í kerfið.

Gagnainntaka snýst allt um útdrátt gagna frá ofangreindum heimildum. Þessi gögn eru geymd í geymslunni og síðan umbreytt til frekari vinnslu á þeim.

Atriði sem þarf að huga að:

  1. Ákvarðaðu tíðni sem gögn yrðu tekin inn frá hverjum uppruna
  2. Er þörf á að breyta merkingarfræði gagna?
  3. Er einhver sannprófun eða umbreyting gagna nauðsynleg fyrir inntöku (Forvinnsla)?
  4. Aðgreina gagnaheimildir eftir inntökuham – runu eða rauntíma
  • Gagnageymsla : Aðstaðan þar sem stór gögn verða í raun geymd.

Maður ætti að geta geymt mikið magn af gögnum af hvaða gerð sem er og ætti að geta skalað eftir þörfum. Við ættum líka að huga að fjölda IOPS (Input output operations per second) sem það getur veitt. Hadoop dreift skráarkerfi er algengasta geymsluramminn í Big Data heiminum, önnur eru NoSQL gagnaverslanir - MongoDB, HBase, Cassandra o.s.frv.

Atriði sem þarf að hafa í huga við skipulagningu geymsluaðferða:

  1. Tegund gagna (söguleg eða stigvaxandi)
  2. Snið gagna (skipulögð, hálfskipulögð og ómótuð)
  3. Þjöppunarkröfur
  4. Tíðni gagna sem berast
  5. Fyrirspurnarmynstur á gögnunum
  6. Neytendur gagnanna
  • Gagnavinnsla : Verkfæri sem veita greiningu á stórum gögnum.

Ekki aðeins magn gagna sem verið er að geyma heldur hefur vinnslan líka margfaldast.

Gögn sem oft voru notuð áður voru geymd í Dynamic vinnsluminni. En nú er verið að geyma það á mörgum diskum á fjölda véla sem eru tengdar í gegnum netið vegna mikils magns. Þess vegna, í stað þess að safna gagnaklumpum til vinnslu, eru vinnslueiningar teknar í stóru gögnin. Þannig dregur verulega úr net I/O. Vinnsluaðferðafræðin er knúin áfram af viðskiptakröfum. Það er hægt að flokka það í lotu, rauntíma eða hybrid byggt á SLA.

  1. Hópur Processing  - Hópur er að safna inntak fyrir tiltekinn millibili tíma og keyra umbreytingar á það í tímaáætlun hátt. Söguleg gagnahleðsla er dæmigerð lotuaðgerð
  2. Rauntímavinnsla - Rauntímavinnsla felur í sér að keyra umbreytingar þegar og þegar gögn eru aflað.
  3. Blendingsvinnsla - Þetta er blanda af bæði lotu- og rauntímavinnsluþörfum.
  • Gagnanotkun/notkun : Notendur/þjónusta sem nýta gögnin sem greind eru.

Þetta lag eyðir framleiðslu sem vinnslulagið gefur. Mismunandi notendur eins og stjórnandi, viðskiptanotendur, söluaðili, samstarfsaðilar osfrv. geta neytt gagna á mismunandi sniði. Hægt er að neyta úttaks greiningarinnar með meðmælavél eða hægt er að koma viðskiptaferlum af stað á grundvelli greiningarinnar.

Mismunandi gerðir gagnanotkunar eru:

  1. Flytja út gagnasett - Það geta verið kröfur um gagnasöfn þriðja aðila. Hægt er að búa til gagnasöfn með því að nota býflugnaútflutning eða beint frá HDFS.
  2. Skýrslur og sjónræning - Mismunandi skýrslu- og sjónunarverkfæri tengjast Hadoop með JDBC/ODBC tengingu til að hive.
  3. Gagnakönnun - Gagnafræðingur getur smíðað líkön og framkvæmt djúpa könnun í sandkassaumhverfi. Sandkassi getur verið aðskilinn þyrping (ráðlögð nálgun) eða sérstakt skema innan sama klasa sem inniheldur undirmengi raunverulegra gagna.
  4. Adhoc fyrirspurnir - Hægt er að styðja við adhoc eða gagnvirka fyrirspurn með því að nota Hive, Impala eða spark SQL.

Lestu einnig:  Big Data: A Future Nightmare?

Virk lög í Big Data Architecture:

Það gæti verið ein leið í viðbót til að skilgreina arkitektúrinn, þ.e. er í gegnum virkniskiptingu. En virkniflokkana væri hægt að flokka saman í rökrétt lag viðmiðunararkitektúrs, þannig að ákjósanlegur arkitektúr er sá sem er gerður með rökrænum lögum.

Lagskiptingin byggð á virkninni er eins og hér að neðan:

  1. Gagnaheimildir:

Greining á öllum heimildum sem stofnun fær gögn frá og sem gætu hjálpað stofnuninni við að taka framtíðarákvarðanir ætti að vera skráð í þennan flokk. Gagnaheimildirnar sem taldar eru upp hér eru óháð því hvort gögnin eru skipulögð, óskipulögð eða hálfgerð.

  1. Gagnaútdráttur:

Áður en þú getur geymt, greint eða séð gögnin þín verður þú að hafa nokkur. Gagnaútdráttur snýst allt um að taka eitthvað sem er óskipulagt, eins og vefsíðu, og breyta því í skipulagða töflu. Þegar þú hefur fengið það skipulagt geturðu unnið með það á alls kyns vegu, með því að nota verkfærin sem lýst er hér að neðan, til að finna innsýn.

  1. Gagnageymsla:

Grunnnauðsynin þegar unnið er með stór gögn er að hugsa um hvernig eigi að geyma þessi gögn. Hluti af því hvernig Big Data fékk aðgreininguna sem „BIG“ er að það varð of mikið fyrir hefðbundin kerfi til að höndla. Góður gagnageymsluaðili ætti að bjóða þér innviði til að keyra öll önnur greiningartæki þín á sem og stað til að geyma og spyrjast fyrir um gögnin þín.

  1. Gagnahreinsun:

Nauðsynlegt skref áður en við byrjum í raun að vinna gögnin til að fá innsýn. Það er alltaf góð venja að búa til hreint, vel uppbyggt gagnasafn. Gagnasöfn geta verið af öllum stærðum og gerðum, sérstaklega þegar þau koma af vefnum. Veldu tól í samræmi við gagnaþörf þína.

  1. Gagnanám:

Gagnanám er ferlið við að uppgötva innsýn í gagnagrunni. Markmið gagnavinnslu er að taka ákvarðanir og spá um þau gögn sem þú hefur við höndina. Veldu hugbúnað sem gefur þér bestu spár fyrir allar tegundir gagna og gerir þér kleift að búa til þín eigin reiknirit til að vinna gögnin.

  1. Gagnagreining:

Þó að gagnavinnsla snýst allt um að sigta í gegnum gögnin þín í leit að áður óþekktum mynstrum, snýst gagnagreining um að brjóta þessi gögn niður og meta áhrif þessara mynstra yfirvinnu. Greining snýst um að spyrja ákveðinna spurninga og finna svörin í gögnum. Þú getur jafnvel spurt spurninga um hvað mun gerast í framtíðinni!

  1. Sjónræn gögn:

Sjónmyndir eru björt og auðveld leið til að koma flókinni gagnainnsýn á framfæri. Og það besta er að flestir þeirra þurfa enga kóðun. Gagnasýnarfyrirtæki munu láta gögnin þín lifna við. Hluti af áskorun hvers gagnafræðings er að miðla innsýninni úr þeim gögnum til restarinnar af fyrirtækinu þínu. Verkfæri gætu hjálpað þér að búa til töflur, kort og aðra slíka grafík úr gagnainnsýn þinni.

  1. Gagnasamþætting:

Gagnasamþættingarpallar eru límið á milli hvers forrits. Þeir tengja mismunandi ályktanir verkfæranna við annan hugbúnað. Þú gætir deilt niðurstöðum sjónrænnartækjanna þinna beint á Facebook í gegnum þessi verkfæri.

  1. Gagnatungumál:

Það munu koma tímar á gagnaferli þínum þegar tól mun einfaldlega ekki klippa það. Þó að verkfæri nútímans séu að verða öflugri og auðveldari í notkun, þá er stundum bara betra að kóða það sjálfur. Það eru mismunandi tungumál sem hjálpa þér í mismunandi þáttum eins og tölfræði og grafík. Þessi tungumál gætu virkað sem viðbót fyrir gagnavinnslu og tölfræðihugbúnað.

Virkni Big Data Reference Architecture Layers

Lykilatriðið sem þarf að muna við að hanna Big Data Architecture eru:

  • Virkni notkunar : Það er fjöldi atburðarása eins og sýnt er í greininni sem þarf að hafa í huga við hönnun arkitektúrsins - form og tíðni gagna, Tegund gagna, Tegund vinnslu og greining sem krafist er.
  • Mörg tækni:  Fjölgun tækja á markaðnum hefur leitt til mikils ruglings um hvað eigi að nota og hvenær, það eru margar tækni sem bjóða upp á svipaða eiginleika og segjast vera betri en hinar.

Ég veit að þú myndir vera að hugsa um mismunandi verkfæri til að nota til að búa til fullsönnun Big Data lausn. Jæja, í komandi færslum mínum um Big Data, myndi ég fjalla um nokkur bestu verkfæri til að ná mismunandi verkefnum í stórum gagnaarkitektúr .


The Rise of Machines: Real World Applications of AI

The Rise of Machines: Real World Applications of AI

Gervigreind er ekki í framtíðinni, hún er hér í nútímanum Í þessu bloggi Lestu hvernig gervigreindarforrit hafa haft áhrif á ýmsa geira.

DDOS árásir: Stutt yfirlit

DDOS árásir: Stutt yfirlit

Ertu líka fórnarlamb DDOS árása og ruglaður með forvarnaraðferðirnar? Lestu þessa grein til að leysa spurningar þínar.

Hefur þú einhvern tíma velt því fyrir þér hvernig tölvuþrjótar græða peninga?

Hefur þú einhvern tíma velt því fyrir þér hvernig tölvuþrjótar græða peninga?

Þú gætir hafa heyrt að tölvuþrjótar græða mikið af peningum, en hefur þú einhvern tíma velt því fyrir þér hvernig þeir vinna sér inn svona peninga? við skulum ræða.

Byltingarkenndar uppfinningar frá Google sem munu auðvelda lífi þínu.

Byltingarkenndar uppfinningar frá Google sem munu auðvelda lífi þínu.

Viltu sjá byltingarkenndar uppfinningar frá Google og hvernig þessar uppfinningar breyttu lífi hvers manns í dag? Lestu síðan til að blogga til að sjá uppfinningar frá Google.

Föstudagur Nauðsynlegur: Hvað varð um gervigreindardrifna bíla?

Föstudagur Nauðsynlegur: Hvað varð um gervigreindardrifna bíla?

Hugmyndin um að sjálfkeyrandi bílar fari á göturnar með hjálp gervigreindar er draumur sem við höfum átt um tíma núna. En þrátt fyrir nokkur loforð eru þau hvergi sjáanleg. Lestu þetta blogg til að læra meira…

Tæknileg sérkenni: Fjarlæg framtíð mannlegrar siðmenningar?

Tæknileg sérkenni: Fjarlæg framtíð mannlegrar siðmenningar?

Þar sem vísindin þróast hratt og taka yfir mikið af viðleitni okkar, eykst hættan á því að verða fyrir óútskýranlegri einstæðu. Lestu, hvað sérkenni gæti þýtt fyrir okkur.

Þróun gagnageymslu – Infographic

Þróun gagnageymslu – Infographic

Geymsluaðferðir gagna hafa verið að þróast gæti verið frá fæðingu gagna. Þetta blogg fjallar um þróun gagnageymslu á grundvelli upplýsingamynda.

Virkni Big Data Reference Architecture Layers

Virkni Big Data Reference Architecture Layers

Lestu bloggið til að þekkja mismunandi lög í Big Data Architecture og virkni þeirra á einfaldasta hátt.

6 ótrúlegir kostir þess að hafa snjall heimilistæki í lífi okkar

6 ótrúlegir kostir þess að hafa snjall heimilistæki í lífi okkar

Í þessum stafræna heimi hafa snjallheimilistæki orðið afgerandi hluti af lífi. Hér eru nokkrir ótrúlegir kostir snjallheimatækja um hvernig þau gera líf okkar þess virði að lifa því og einfaldara.

macOS Catalina 10.15.4 viðbót uppfærsla veldur fleiri vandamálum en að leysa

macOS Catalina 10.15.4 viðbót uppfærsla veldur fleiri vandamálum en að leysa

Nýlega gaf Apple út macOS Catalina 10.15.4 viðbótaruppfærslu til að laga vandamál en svo virðist sem uppfærslan sé að valda fleiri vandamálum sem leiða til múrsteins á Mac vélum. Lestu þessa grein til að læra meira